Pass It On Text Generation

تمريرها

readme- 老司机版

Corpus + Code + نموذج مدرب لـ "Pass It On" Bilibili Meme.

جدول المحتوى
- سياق
- متطلبات
- وصف البيانات
  - تفسيرات
  - بيانات التدريب
- وصف المهمة
- وصف النموذج
  - بنيان
  - الاستدلال
    - حالات التوليد
  - تمرين
- حدود النموذج

سياق

قد يساعد هذا المستودع في دراسة انتشار كلمة الشائعات ، خاصةً حول كيفية إعادة صياغة الناس ويجعلون شائعات (أو حقيقة) أكثر وأكثر صدمة (مضحكة في بعض الأحيان) عندما يمرون بها و ...

وفي الوقت نفسه ، "تمريرها" هي أيضا ميمي bilibili. سيقوم الناس بتكتب تعليق على مقاطع الفيديو أو المنشورات التي تحاول إساءة تفسير ما يعنيه التحميل في الأصل ، مما يؤدي إلى انتشار مضحكة.

متطلبات

 python 3.6
tensorflow 1.14.0
bert4keras 0.10.6
jieba

وصف البيانات

نحن نقدم مجموعة مع تعليقات 3W Bilibili باستخدام نمط "تمريرها على" Bilibili Meme (وهي التعليقات التي تبدأ بـ "تمريرها" ،)

توزيع البيانات

لقد زحفنا بشكل أساسي تعليقات الفيديو/النشر من "أفضل 100 تحميل من العامين" خلال السنوات الثلاث الماضية. كما يتم تضمين العديد من القنوات التي تحتوي على ملايين من المتابعين مثل Genshin Impact أيضًا. لاحظ أن المجموعة ليست كبيرة بما يكفي لتمثيل توزيع مستخدم/التعليقات الكاملة من Bilibili.

بنية البيانات

يتم حفظ البيانات الأصلية على أنها "corpus.json" في مجلد البيانات ، وهي قائمة بالوحود.

مثالان (عناصر) من البيانات/corpus.json

 {
    "context": {
        "bvid": "BV1Gb4y167gE",
        "uid": "476704454"
    },
    "rumors": [
        {
            "source": "热情的舟山人民把小文哥当海鲜吃了",
            "propagations": []
        },
        {
            "source": "5147779123",
            "propagations": [
                "舟山的海鲜把小文哥吃了",
                "舟山的海鲜想让小文哥吃人",
                "热情的小文哥把海鲜当成舟山人民吃了",
                "小文哥热情地把舟山上的海鲜吃了",
                "热情的海鲜在舟山到处吃小文哥",
                "热情的舟山海鲜把小文哥给吃了。",
                "舟山的热情海鲜把小文哥吃了",
                "小文哥带着热情的海鲜把舟山吃了"
            ]
        },
        {
            "source": "小文哥把舟山人民配海鲜吃了",
            "propagations": []
        }
    ]
},
{
    "context": {
        "bvid": "BV1Bw411d7r8",
        "uid": "476704454"
    },
    "rumors": [
        {
            "source": "小文哥吃了兄弟家一山头的桃",
            "propagations": []
        }
    ]
}

تفسيرات

محتوى البيانات

يتم جمع جميع البيانات من فيديو Bilibili أو نشر التعليقات. عندما يكتب شخص ما تعليقًا مع أنماط "تمريرها على" ، غالبًا ما يتبع الآخرون ويتركون القطع الفرعية بنفس النمط. على سبيل المثال،

 a comment : pass it on, the uploader says he likes this girl.
    sub-comment-1: pass it on, the uploader likes to be a girl
    sub-comment-2: pass it on, the uploader likes to be a boy
    sub-comment-3: pass it on, the uploader is a girl
    ...

لكل عنصر في البيانات/corpus.json

 context:   # so that one could refer to source page 
    bvid:  # video (post) id
    uid:   # user (uploader) id
rumors:    # a list containing rumors
    [
        {
            source:  #  source of rumors, might be a comment or just a comment_id (if source has no "pass it on" pattern)
            propagations:  # list of sub-comments, spreading the source in time order
        },
        {source, propagations},
        {source, propagations},
        ...
    ]

بيانات التدريب

نستمد أيضًا "بيانات/قطار. الأسماء" ، بيانات التدريب بتنسيق مشترك من "Secnence1 T Sectence2" Line. أنه يحتوي على 290،000 أزواج الجملة.

وصف المهمة

نتعامل مع المهمة ببساطة على أنها توليد نصية نموذجية:

المدخلات: شائعة
الإخراج: شائعات انتشار

تشبه المهمة إعادة صياغة النص (توليد جمل مماثلة) ، ولكن هذه المرة على الرغم من صياغة الجملة المماثلة ، نريد أيضًا تحولًا دلاليًا عن قصد.

علاوة على ذلك ، هناك تحد آخر يكمن في العلاقة بين المصدر والانتشار.

وصف النموذج

بنيان

نحن نستفيد من نموذج Roformer-Sim Pretrained Generation-Brank-Brank باعتباره العمود الفقري لدينا ، لأنه خط أساسي جيد لإعادة صياغة النص. علاوة على ذلك ، من أجل صياغة العلاقة بين المصدر ، فإن العلاقة بين العدد كما هو مذكور من قبل ، نضيف متغيرًا كامنًا بطريقة أفلاطون ، حيث يتم إعداد رمز خاص لإدخال نص يمثل متغيرًا كامنًا. وبالتالي التعلم يختلف قليلا كذلك.

ملاحظة: لسنا متأكدين بنسبة 100 ٪ من أن تنفيذ نموذج أفلاطوننا صحيح [DOGE]

نحن نفتح مصدرنا للاستخدام العام. إنه نموذج roformer المعدل من 12 طبقة.

محرك Google

الاستدلال

ملاحظة $ your_model_path دليل النموذج للنموذج الذي تم تنزيله ، ثم يمكنك استخدام سطر الأوامر لأداء الاستدلال على النحو التالي:

 python train_latent.py --do_predict --model_dir=$your_model_path --n=1 --topp=0.8 --text=any_text

حالات التوليد

مثال على الإخراج لـ "UP 主喜欢小天使"

 input: up主喜欢小天使
==========  predict:
传下去，up主疑似在天堂被天台感动
传下去，up喜欢天穹
传下去，up主家里有天星
传下去，天使喜欢戴眼镜的up主
传下去，up没有天堂
传下去，up叫天台来烤粉丝。
传下去，up每天早上要直播露脸
传下去，up下天生孩子
传下去，up到天台高产了
传下去，up上天堂了
传下去，up和天使吃了
传下去，楼主的那个帅小伙要穿天堂
传下去，up要cos女巫直播
传下去，天堂大up要爽了
传下去，up下天生孩子翻车了
传下去，up不是人
传下去，天天抽一个up吃8个小孩
传下去，三天之后，up主要被魅魔掏心脏了

مثال على الإخراج لـ "帝君喜欢吃花生米"

 input:  帝君喜欢吃花生米
==========  predict:
传下去，帝君喜欢吃干净的小孩子。
传下去，帝君喜欢捆绑
传下去，帝君用生煎包吃花生米
传下去，帝君吃傻子吃腻了
传下去，喜欢帝君的来自花生米
传下去，花生米吃帝君
传下去，神像吃吃沙子
传下去，我吃帝君屁股
传下去，帝君身边有个米哈游
传下去，帝君只剩干了
传下去，仙跳墙使帝君心疼
传下去，帝君今天上了小通宵
传下去，帝君上床了
传下去，帝君没有下半身
传下去，帝君要炸百京贵妇
传下去，十个视频有了帝君
传下去，帝君会喂食尘神当生日礼物
传下去，视频下一次更新十个帝君
传下去，这个视频里有一年的课代表

مثال على الإخراج لـ "川建国要复辟了"

 input:  川建国要复辟了
==========  predict:
传下去，川建国想要
传下去，川宝上任国君了
传下去，川宝变艾伦了
传下去，《不要传传》
传下去，川宝有天火了。
传下去，阿舅变成了川宝
传下去，川宝长大了也不会忘开
传下去，《川宝要制杖》
传下去，总之，川宝喜欢新衣服
传下去，齐格飞要斩四郎
传下去，老八要吃了川宝
传下去，川普不喜欢制杖
传下去，川团老表是孙笑川
传下去，三叔写盗墓笔记
传下去，川宝没有才浅是制杖
传下去，《川宝喜欢才浅制杖》
传下去，我要吃川宝老爷子
传下去，《我才是川宝喜欢的人》
传下去，全世界辣鸡都不用吃川宝！
传下去，有人冒充川宝想被粉丝上

تمرين

بشكل افتراضي ، نتدرب على 10 عصر مع Batch_size = 128. تم تشجيعها على تطبيق نقطة تفتيش قبله. (على سبيل المثال ، في السطر 30 ، checkpoint_path = "inchank_roformer-sim-char-ft_l-12_h-768_a-12")

 python train_latent.py --model_dir=$your_model_dir --train=data/train.samples

حدود النموذج

نظرًا لأنها طريقة تعتمد على البيانات تمامًا ، فقد يولد هذا النموذج جملًا غريبة أو غير سائلة للمدخلات غير المرئية أو خارج المجال ، وهو أمر معقول للغاية.

بالمناسبة ، يتم الترحيب بأي مجموعة إضافية مثيرة للاهتمام.

يوسع