Pass It On Text Generation

傳遞

讀取者

語料庫 +代碼 +訓練有素的模型，用於“通過”比利比利模因。

內容表
- 情境
- 要求
- 數據描述
  - 解釋
  - 培訓數據
- 任務說明
- 模型描述
  - 建築學
  - 推理
    - 發電案例
  - 訓練
- 模型限制

情境

這個存儲庫可能有助於研究口碑謠言的傳播，尤其是關於人們如何重新重現和發出謠言（或事實）時越來越令人震驚（有時很有趣），當他們不斷地傳播時...

同時，“傳遞”也是比利比利的模因。人們會對視頻或帖子發表評論，試圖故意誤解上傳者最初的含義，從而導致有趣的口碑傳播。

要求

 python 3.6
tensorflow 1.14.0
bert4keras 0.10.6
jieba

數據描述

我們使用“通過” bilibili Meme的模式提供了一個3W Bilibili評論的語料庫（即，以“傳遞”開頭的評論，）

數據分佈

在過去的3年中，我們主要爬了“年度最佳上傳者”的視頻/發表評論。還包括數百萬追隨者（例如Genshin撞擊）的幾個渠道。請注意，該語料庫遠遠不夠大，可以代表完整的Bilibili用戶/註釋分發。

數據結構

原始數據在數據文件夾中保存為“ corpus.json”，它是字典列表。

數據/copus.json的兩個示例（元素）

 {
    "context": {
        "bvid": "BV1Gb4y167gE",
        "uid": "476704454"
    },
    "rumors": [
        {
            "source": "热情的舟山人民把小文哥当海鲜吃了",
            "propagations": []
        },
        {
            "source": "5147779123",
            "propagations": [
                "舟山的海鲜把小文哥吃了",
                "舟山的海鲜想让小文哥吃人",
                "热情的小文哥把海鲜当成舟山人民吃了",
                "小文哥热情地把舟山上的海鲜吃了",
                "热情的海鲜在舟山到处吃小文哥",
                "热情的舟山海鲜把小文哥给吃了。",
                "舟山的热情海鲜把小文哥吃了",
                "小文哥带着热情的海鲜把舟山吃了"
            ]
        },
        {
            "source": "小文哥把舟山人民配海鲜吃了",
            "propagations": []
        }
    ]
},
{
    "context": {
        "bvid": "BV1Bw411d7r8",
        "uid": "476704454"
    },
    "rumors": [
        {
            "source": "小文哥吃了兄弟家一山头的桃",
            "propagations": []
        }
    ]
}

解釋

數據內容

所有數據均從比利比利視頻或發表評論中收集。當某人用“傳遞”圖案寫評論時，其他人通常會跟隨並留下相同模式的子手段。例如，

 a comment : pass it on, the uploader says he likes this girl.
    sub-comment-1: pass it on, the uploader likes to be a girl
    sub-comment-2: pass it on, the uploader likes to be a boy
    sub-comment-3: pass it on, the uploader is a girl
    ...

對於數據/語料庫中的每個元素

 context:   # so that one could refer to source page 
    bvid:  # video (post) id
    uid:   # user (uploader) id
rumors:    # a list containing rumors
    [
        {
            source:  #  source of rumors, might be a comment or just a comment_id (if source has no "pass it on" pattern)
            propagations:  # list of sub-comments, spreading the source in time order
        },
        {source, propagations},
        {source, propagations},
        ...
    ]

培訓數據

我們還得出了“數據/列車”，這是逐行的“句子1 t句子2”行的常見格式的訓練數據。它包含290,000個句子對。

任務說明

我們將任務視為典型的文本生成：

輸入：謠言
輸出：謠言

該任務類似於文本釋義（生成相似的句子），但是這次儘管句子配方相似，但我們也希望在目的上進行語義轉移。

此外，還有另一個挑戰在於來源與傳播之間的一對多關係。

模型描述

建築學

我們利用Roformer-SIM預讀的一代模型作為我們的骨幹，因為這是一個很好的文本釋義基線。此外，為了對以前指出的一對多關係進行建模，我們以柏拉圖的方式添加潛在變量，其中預先將特殊的令牌添加到代表潛在變量的輸入文本。因此學習也略有不同。

注意：我們不能100％確定我們的類似柏拉圖的模型實現是正確的[Doge]

我們開源的模型供公眾使用。這是一個12層修改的Roformer模型。

Google Drive

推理

注意$ your_model_path下載模型的模型目錄，然後您可以使用命令行執行推斷，如下所示：

 python train_latent.py --do_predict --model_dir=$your_model_path --n=1 --topp=0.8 --text=any_text

發電案例

示例輸出“向上主喜歡小天使”

 input: up主喜欢小天使
==========  predict:
传下去，up主疑似在天堂被天台感动
传下去，up喜欢天穹
传下去，up主家里有天星
传下去，天使喜欢戴眼镜的up主
传下去，up没有天堂
传下去，up叫天台来烤粉丝。
传下去，up每天早上要直播露脸
传下去，up下天生孩子
传下去，up到天台高产了
传下去，up上天堂了
传下去，up和天使吃了
传下去，楼主的那个帅小伙要穿天堂
传下去，up要cos女巫直播
传下去，天堂大up要爽了
传下去，up下天生孩子翻车了
传下去，up不是人
传下去，天天抽一个up吃8个小孩
传下去，三天之后，up主要被魅魔掏心脏了

示例輸出的“帝君喜歡吃花生米”

 input:  帝君喜欢吃花生米
==========  predict:
传下去，帝君喜欢吃干净的小孩子。
传下去，帝君喜欢捆绑
传下去，帝君用生煎包吃花生米
传下去，帝君吃傻子吃腻了
传下去，喜欢帝君的来自花生米
传下去，花生米吃帝君
传下去，神像吃吃沙子
传下去，我吃帝君屁股
传下去，帝君身边有个米哈游
传下去，帝君只剩干了
传下去，仙跳墙使帝君心疼
传下去，帝君今天上了小通宵
传下去，帝君上床了
传下去，帝君没有下半身
传下去，帝君要炸百京贵妇
传下去，十个视频有了帝君
传下去，帝君会喂食尘神当生日礼物
传下去，视频下一次更新十个帝君
传下去，这个视频里有一年的课代表

示例輸出的“川建國要復闢了”

 input:  川建国要复辟了
==========  predict:
传下去，川建国想要
传下去，川宝上任国君了
传下去，川宝变艾伦了
传下去，《不要传传》
传下去，川宝有天火了。
传下去，阿舅变成了川宝
传下去，川宝长大了也不会忘开
传下去，《川宝要制杖》
传下去，总之，川宝喜欢新衣服
传下去，齐格飞要斩四郎
传下去，老八要吃了川宝
传下去，川普不喜欢制杖
传下去，川团老表是孙笑川
传下去，三叔写盗墓笔记
传下去，川宝没有才浅是制杖
传下去，《川宝喜欢才浅制杖》
传下去，我要吃川宝老爷子
传下去，《我才是川宝喜欢的人》
传下去，全世界辣鸡都不用吃川宝！
传下去，有人冒充川宝想被粉丝上

訓練

默認情況下，我們使用batch_size = 128訓練10個時期。鼓勵使用經過預定的檢查站。（例如，在第30行，checkpoint_path =“ central_roformer-sim-char-ft_l-12_h-768_a-12”）

 python train_latent.py --model_dir=$your_model_dir --train=data/train.samples

模型限制

由於這完全是數據驅動的方法，因此該模型可能會為看不見的或不域外輸入生成怪異或非全體句子，這是相當合理的。

順便說一句，歡迎任何其他有趣的語料庫。

展開

傳遞

情境

要求

數據描述

解釋

培訓數據

任務說明

模型描述

建築學

推理

發電案例

訓練

模型限制

與耶穌發簡訊

Text With Jesus中文版

透過 HSK 應用程式

發短信或死亡

零世代挑戰 CODEX

流光不通過！

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express