readme-老司机版
corpus + code + bilibili memeの「Pass it on」のトレーニングモデル。
このリポジトリは、口コミの噂の伝播を研究するのに役立つかもしれません。
一方、「Pass it On」もビリビリのミームです。人々は、アップローダーが元々何を意味するかを意図的に誤解しようとするビデオや投稿にコメントを書いて、面白い言葉の伝播をもたらします。
python 3.6
tensorflow 1.14.0
bert4keras 0.10.6
jieba
bilibili meme(すなわち、「pass it on」から始まるコメント)のパターンを使用して、3WのBilibiliコメントを含むコーパスを提供します。
私たちは主に、過去3年間、「今年のトップ100のアップローダー」からのビデオ/投稿のコメントをクロールしました。 Genshin Impactなどの数百万人のフォロワーを持ついくつかのチャネルも含まれています。コーパスは、完全なbilibiliユーザー/コメントの配布を表すのに十分な大きさとはほど遠いことに注意してください。
元のデータは、データフォルダーに「corpus.json」として保存されており、辞書のリストです。
{
"context": {
"bvid": "BV1Gb4y167gE",
"uid": "476704454"
},
"rumors": [
{
"source": "热情的舟山人民把小文哥当海鲜吃了",
"propagations": []
},
{
"source": "5147779123",
"propagations": [
"舟山的海鲜把小文哥吃了",
"舟山的海鲜想让小文哥吃人",
"热情的小文哥把海鲜当成舟山人民吃了",
"小文哥热情地把舟山上的海鲜吃了",
"热情的海鲜在舟山到处吃小文哥",
"热情的舟山海鲜把小文哥给吃了。",
"舟山的热情海鲜把小文哥吃了",
"小文哥带着热情的海鲜把舟山吃了"
]
},
{
"source": "小文哥把舟山人民配海鲜吃了",
"propagations": []
}
]
},
{
"context": {
"bvid": "BV1Bw411d7r8",
"uid": "476704454"
},
"rumors": [
{
"source": "小文哥吃了兄弟家一山头的桃",
"propagations": []
}
]
}
すべてのデータは、Bilibiliビデオまたは投稿コメントから収集されます。誰かが「Pass it On」パターンでコメントを書くと、他の人はしばしば同じパターンでサブコメントを残して残します。例えば、
a comment : pass it on, the uploader says he likes this girl.
sub-comment-1: pass it on, the uploader likes to be a girl
sub-comment-2: pass it on, the uploader likes to be a boy
sub-comment-3: pass it on, the uploader is a girl
...
データ/corpus.jsonの各要素について
context: # so that one could refer to source page
bvid: # video (post) id
uid: # user (uploader) id
rumors: # a list containing rumors
[
{
source: # source of rumors, might be a comment or just a comment_id (if source has no "pass it on" pattern)
propagations: # list of sub-comments, spreading the source in time order
},
{source, propagations},
{source, propagations},
...
]
また、「data/train.samples」を導き出します。これは、「cente1 t centent2」の共通形式のトレーニングデータです。 290,000ペアが含まれています。
タスクを単に典型的なテキスト生成として扱います。
タスクはテキストの言い換え(同様の文を生成する)に似ていますが、今回は同様の文の定式化にもかかわらず、意図的にセマンティックシフトも必要です。
その上、ソースと伝播の間に1対多の関係にある別の課題があります。
私たちは、Roformer-Simの前提条件の世代からランクモデルをバックボーンとして活用しています。これは、良いテキストの言い換えベースラインであるためです。さらに、以前に記載されているように、ソース伝導を1対多くの関係をモデル化するために、プラトンの方法で潜在変数を追加します。ここでは、潜在変数を表すテキストを入力するために特別なトークンが準備されます。したがって、学習も少し異なります。
注:プラトンのようなモデルの実装が正しいことを100%確信していません[doge]
公共の使用のためにモデルをオープンソースします。これは、12層の変更されたRoformerモデルです。
Googleドライブ
$ your_model_pathダウンロードされたモデルのモデルディレクトリを使用して、コマンドラインを使用して、次のように推論を実行できます。
python train_latent.py --do_predict --model_dir=$your_model_path --n=1 --topp=0.8 --text=any_text
input: up主喜欢小天使
========== predict:
传下去,up主疑似在天堂被天台感动
传下去,up喜欢天穹
传下去,up主家里有天星
传下去,天使喜欢戴眼镜的up主
传下去,up没有天堂
传下去,up叫天台来烤粉丝。
传下去,up每天早上要直播露脸
传下去,up下天生孩子
传下去,up到天台高产了
传下去,up上天堂了
传下去,up和天使吃了
传下去,楼主的那个帅小伙要穿天堂
传下去,up要cos女巫直播
传下去,天堂大up要爽了
传下去,up下天生孩子翻车了
传下去,up不是人
传下去,天天抽一个up吃8个小孩
传下去,三天之后,up主要被魅魔掏心脏了
input: 帝君喜欢吃花生米
========== predict:
传下去,帝君喜欢吃干净的小孩子。
传下去,帝君喜欢捆绑
传下去,帝君用生煎包吃花生米
传下去,帝君吃傻子吃腻了
传下去,喜欢帝君的来自花生米
传下去,花生米吃帝君
传下去,神像吃吃沙子
传下去,我吃帝君屁股
传下去,帝君身边有个米哈游
传下去,帝君只剩干了
传下去,仙跳墙使帝君心疼
传下去,帝君今天上了小通宵
传下去,帝君上床了
传下去,帝君没有下半身
传下去,帝君要炸百京贵妇
传下去,十个视频有了帝君
传下去,帝君会喂食尘神当生日礼物
传下去,视频下一次更新十个帝君
传下去,这个视频里有一年的课代表
input: 川建国要复辟了
========== predict:
传下去,川建国想要
传下去,川宝上任国君了
传下去,川宝变艾伦了
传下去,《不要传传》
传下去,川宝有天火了。
传下去,阿舅变成了川宝
传下去,川宝长大了也不会忘开
传下去,《川宝要制杖》
传下去,总之,川宝喜欢新衣服
传下去,齐格飞要斩四郎
传下去,老八要吃了川宝
传下去,川普不喜欢制杖
传下去,川团老表是孙笑川
传下去,三叔写盗墓笔记
传下去,川宝没有才浅是制杖
传下去,《川宝喜欢才浅制杖》
传下去,我要吃川宝老爷子
传下去,《我才是川宝喜欢的人》
传下去,全世界辣鸡都不用吃川宝!
传下去,有人冒充川宝想被粉丝上
デフォルトでは、batch_size = 128で10個のエポックをトレーニングします。事前に守られたチェックポイントを適用することをお勧めします。 (たとえば、30行目で、Checkpoint_Path = "中国語_roformer-sim-char-ft_l-12_h-768_a-12"))
python train_latent.py --model_dir=$your_model_dir --train=data/train.samples
それは完全にデータ駆動型の方法であるため、このモデルは、目に見えないまたはドメイン外の入力に対して奇妙なまたは非流動文を生成する可能性がありますが、これは非常に妥当です。
ちなみに、追加の興味深いコーパスは歓迎されます。