الوصف الصيني | إنجليزي

في مجال معالجة اللغة الطبيعية ، أصبحت نماذج اللغة التي تم تدريبها مسبقًا (نماذج اللغة التي تم تدريبها مسبقًا) تقنية أساسية مهمة للغاية. من أجل زيادة الترويج للبحث والتطوير في معالجة المعلومات الصينية ، أصدرنا النموذج الصيني Bert-WWM على أساس تكنولوجيا إخفاء الكلمات الكاملة ، وكذلك النماذج المتعلقة ارتباطًا وثيقًا بهذه التكنولوجيا: Bert-WWM-Ext ، وروبرتا-WWM-EXT ، و Roberta-WWM-EXT-LARGE ، RBT3 ، RBT3 ، إلخ ، إلخ.
يعتمد هذا المشروع على Bert الرسمي من Google: https://github.com/google-research/bert
ليرت الصينية | اللغة الإنجليزية الصينية بيرت | صينية ماكبرت | إلكترا الصينية | صينية XLNET | بيرت الصينية | أداة التقطير المعرفة TextBrewer | أداة قطع النموذج TextPruner
شاهد المزيد من الموارد التي أصدرها IFL من معهد Harbin للتكنولوجيا (HFL): https://github.com/ymcui/hfl-anthology
2023/3/28 Open Source Chinese Llama & Alpaca Big Model ، والذي يمكن نشره بسرعة وتجربته على الكمبيوتر الشخصي ، عرض: https://github.com/ymcui/Chinese-llama-alpaca
2023/3/9 نقترح نموذجًا متعدد الوسائط مسبقًا في الرسومات والنص ، عرض: https://github.com/iflytek/vle
2022/11/15 نقترح Minirbt النموذج الصيني الصغير المدرب قبل التدريب. عرض: https://github.com/iflytek/minirbt
2022/10/29 نقترح LERT النموذج الذي تم تدريبه مسبقًا يدمج المعلومات اللغوية. عرض: https://github.com/ymcui/lert
2022/3/30 نحن نفتح المصدر بنموذج جديد تم تدريبه مسبقًا. عرض: https://github.com/ymcui/pert
2021/10/24 أصدر مختبر Iflytek المشترك نموذج CINO مسبقًا للغات الأقلية العرقية. عرض: https://github.com/ymcui/Chinese-Minority-plm
2021/7/21 "معالجة اللغة الطبيعية: الأساليب القائمة على نماذج ما قبل التدريب" التي كتبها العديد من العلماء من معهد هاربين للتكنولوجيا SCIR تم نشرها ، وكل شخص مرحب به لشرائه.
2021/1/27 قامت جميع الطرز بدعم TensorFlow 2 ، يرجى الاتصال به أو تنزيله من خلال مكتبة Transformers. https://huggingface.co/hfl
2020/9/15 تم توظيف ورقة "إعادة النظر في النماذج التي تم تدريبها قبل التدريب لمعالجة اللغة الطبيعية الصينية" كمقال طويل من خلال نتائج EMNLP.
2020/8/27 تصدرت مختبر IFL المشترك القائمة في تقييم Glue General Natural Language Thating ، تحقق من قائمة الغراء ، الأخبار.
2020/3/23 تم توصيل النموذج الذي تم إصداره في هذا الدليل بـ PaddlePaddleHub لعرض التحميل السريع
2020/3/11 من أجل فهم الاحتياجات بشكل أفضل ، فأنت مدعو لملء الاستبيان لتزويدك بموارد أفضل.
2020/2/26 Iflytek المشترك المشترك يطلق أداة التقطير المعرفة
2020/20/20 أتمنى لكم جميعًا حظًا سعيدًا في عام الفئران. هذه المرة ، تم إصدار RBT3 و RBTL3 (3 طبقات Roberta-WWM-Ext-Base/كبيرة) لعرض نموذج كمية المعلمة الصغيرة.
2019/12/19 تم توصيل النموذج المنشور في هذا الدليل بمحولات Huggingface لعرض التحميل السريع
2019/10/14 إصدار نموذج Roberta-WWM-Extra-Large ، عرض تنزيل النموذج الصيني
2019/9/10 إصدار نموذج Roberta-WWM-EXT وعرض تنزيل النموذج الصيني
يوفر 2019/7/30 نموذج BERT-wwm-ext الصيني المدرب على مجموعة عامة أكبر (عدد الكلمات 5.4B) ، عرض تنزيل النموذج الصيني
2019/6/20 الإصدار الأولي ، يمكن تنزيل النموذج من خلال Google ، كما تم تحميل القرص السحابي المحلي. تحقق من تنزيل النموذج الصيني
| الفصل | يصف |
|---|---|
| مقدمة | مقدمة للمبادئ الأساسية ل Bert-WWM |
| تنزيل النموذج الصيني | يوفر عنوان تنزيل Bert-WWM |
| تحميل سريع | كيفية استخدام المحولات و Paddlehub بسرعة تحميل نماذج |
| مقارنة النموذج | يوفر مقارنة معلمات النموذج في هذا الدليل |
| تأثير نظام خط الأساس الصيني | سرد بعض آثار أنظمة خط الأساس الصينية |
| نموذج كمية المعلمة الصغيرة | قائمة آثار نموذج كمية المعلمة الصغيرة (محول 3 طبقات) |
| توصيات للاستخدام | يتم توفير العديد من الاقتراحات لاستخدام النماذج الصينية التي تم تدريبها مسبقًا |
| قم بتنزيل نموذج اللغة الإنجليزية | عنوان تنزيل Bert-WWM الرسمي لـ Google Bert-WWM |
| التعليمات | الأسئلة الشائعة والإجابات |
| يقتبس | التقارير الفنية في هذا الدليل |
إن إخفاء الكلمة الكاملة (WWM) ، المترجمة مؤقتًا全词Mask أو整词Mask ، هو نسخة ترقية من BERT التي تم إصدارها بواسطة Google في 31 مايو 2019 ، والتي تغير بشكل أساسي استراتيجية توليد العينات التدريبية في مرحلة ما قبل التدريب الأصلية. ببساطة ، ستقوم طريقة تجزئة الكلمات الأصلية المستندة إلى WordPiece إلى تقسيم كلمة كاملة إلى عدة كلمات فرعية. عند إنشاء عينات تدريب ، سيتم ملث هذه الكلمات الفرعية المنفصلة بشكل عشوائي. في全词Mask ، إذا كانت الكلمة الفرعية للكلمة الكاملة محنطة ، فستكون أجزاء أخرى من نفس الكلمة ملثمين ، أي全词Mask .
تجدر الإشارة إلى أن القناع هنا يشير إلى القناع المعمم (الذي تم استبداله بـ [قناع] ؛ حافظ على المفردات الأصلية ؛ تم استبداله بشكل عشوائي بكلمة أخرى) ، ولا يقتصر على الحالة التي يتم فيها استبدال الكلمة بعلامة [MASK] . لمزيد من الأوصاف والأمثلة التفصيلية ، يرجى الرجوع إلى: #4
وبالمثل ، نظرًا لأن Google أصدرت رسميًا BERT-base, Chinese ، يتم تقسيم الصينيين على شخصيات على أنها تفريخ ، ولا تأخذ في الاعتبار النعت الصيني (CWS) في NLP التقليدية. طبقنا طريقة قناع الكلمات الكاملة باللغة الصينية ، واستخدمت ويكيبيديا الصينية (بما في ذلك الصينية المبسطة والتقليدية) للتدريب ، واستخدمت معهد هاربين للتكنولوجيا LTP كأداة تجزئة الكلمات ، أي أن جميع الأحرف الصينية التي تشكل نفس الكلمة يتم تعيينها.
يعرض النص التالي توليد عينة من全词Mask . ملاحظة: من أجل الفهم السهل ، يتم النظر فقط في حالة استبدال علامة [Mask] في الأمثلة التالية.
| يوضح | عينة |
|---|---|
| النص الأصلي | استخدم نماذج اللغة للتنبؤ باحتمال الكلمة التالية. |
| نص النعت | استخدم نماذج اللغة للتنبؤ باحتمال الكلمة التالية. |
| إدخال القناع الأصلي | استخدم نوع اللغة [Mask] لاختبار Pro [Mask] من Word Pro [Mask] ## Lity. |
| إدخال قناع الكلمة الكاملة | استخدم اللغة [قناع] [قناع] ل [قناع] [قناع] الكلمة التالية [قناع] [قناع]. |
يحتوي هذا الدليل بشكل أساسي على نماذج أساسية ، لذلك لا نصف base الكلمات في اختصار النموذج. بالنسبة لنماذج الأحجام الأخرى ، يتم وضع علامة على العلامات المقابلة (على سبيل المثال ، كبيرة).
BERT-large模型: 24 طبقة ، 1024-Hidden ، 16 رأسًا ، 330 مترًا.BERT-base模型: 12 طبقة ، 768-Hidden ، 12 رأس ، 110 متر معلماتملاحظة: لا يحتوي الإصدار المفتوح المصدر على وزن مهام MLM ؛ إذا كنت بحاجة إلى القيام بمهام MLM ، فيرجى استخدام بيانات إضافية للتدريب الثانوي (مثل مهام المصب الأخرى).
| نموذج الاختصار | مواد | تنزيل Google | Baidu NetDisk تنزيل |
|---|---|---|---|
RBT6, Chinese | بيانات EXT [1] | - | TensorFlow (كلمة المرور hniy) |
RBT4, Chinese | بيانات EXT [1] | - | TensorFlow (كلمة المرور SJPT) |
RBTL3, Chinese | بيانات EXT [1] | Tensorflow Pytorch | TensorFlow (كلمة المرور S6CU) |
RBT3, Chinese | بيانات EXT [1] | Tensorflow Pytorch | TensorFlow (كلمة المرور 5A57) |
RoBERTa-wwm-ext-large, Chinese | بيانات EXT [1] | Tensorflow Pytorch | TensorFlow (كلمة المرور DQQE) |
RoBERTa-wwm-ext, Chinese | بيانات EXT [1] | Tensorflow Pytorch | TensorFlow (كلمة المرور Vybq) |
BERT-wwm-ext, Chinese | بيانات EXT [1] | Tensorflow Pytorch | TensorFlow (كلمة المرور wgnt) |
BERT-wwm, Chinese | ويكي الصينية | Tensorflow Pytorch | TensorFlow (كلمة المرور QFH8) |
BERT-base, Chinese Google الصينية | ويكي الصينية | جوجل سحابة | - |
BERT-base, Multilingual Cased google متعددة اللغات | ويكي متعدد اللغات | جوجل سحابة | - |
BERT-base, Multilingual Uncased google متعددة اللغات غير قائم | ويكي متعدد اللغات | جوجل سحابة | - |
[1] تشمل بيانات EXT: ويكيبيديا الصينية ، الموسوعات الأخرى ، الأخبار ، سؤال وجواب وغيرها من البيانات ، مع عدد إجمالي من الكلمات التي يصل إلى 5.4B.
إذا كنت بحاجة إلى إصدار Pytorch ،
1) يرجى تحويلها بنفسك من خلال البرنامج النصي للتحويل المقدم من Transformers.
2) أو تنزيل pytorch مباشرة من خلال الموقع الرسمي لـ Huggingface: https://huggingface.co/HFL
طريقة التنزيل: انقر فوق أي طراز تريد تنزيله → حدد علامة التبويب "الملفات والإصدارات" → قم بتنزيل ملف النموذج المقابل.
يوصى باستخدام نقاط تنزيل Baidu NetDisk في الصين البر الرئيسي ، ويوصى باستخدام المستخدمين في الخارج لاستخدام نقاط تنزيل Google. حجم ملف الطراز الأساسي حوالي 400 متر . أخذ نسخة TensorFlow من BERT-wwm, Chinese كمثال ، بعد تنزيل ، فك ضغط ملف zip للحصول على:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
من بينها ، bert_config.json و vocab.txt هي بالضبط نفس BERT-base, Chinese . يحتوي إصدار Pytorch على ملفات pytorch_model.bin و bert_config.json و vocab.txt .
بالاعتماد على مكتبة المحولات ، يمكن تسمية النماذج أعلاه بسهولة.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
ملاحظة: يتم تحميل جميع النماذج في هذا الدليل باستخدام BertTokenizer و BertModel. لا تستخدم Robertatokenizer/Robertamodel!
القائمة المقابلة لـ MODEL_NAME هي كما يلي:
| اسم النموذج | model_name |
|---|---|
| روبرتا-ووي إم سي | HFL/الصينية-روبرتا-WWM-EXT-LARGE |
| روبرتا-ووي إم | HFL/الصينية-روبرتا-WWM-EXT |
| بيرت-WWM-EXT | HFL/الصينية-بيرت-WWM-EXT |
| بيرت وود | HFL/الصينية-بيرت-WWM |
| RBT3 | HFL/RBT3 |
| RBTL3 | HFL/RBTL3 |
بالاعتماد على Paddlehub ، يمكنك تنزيل وتثبيت النموذج باستخدام سطر واحد فقط من التعليمات البرمجية ، ويمكن لأكثر من عشرة أسطر من التعليمات البرمجية إكمال المهام مثل تصنيف النص ، وشرح التسلسل ، وفهم القراءة ، إلخ.
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
القائمة المقابلة لـ MODULE_NAME هي كما يلي:
| اسم النموذج | module_name |
|---|---|
| روبرتا-ووي إم سي | الصينية-روبتيتا-ووي إم سي |
| روبرتا-ووي إم | الصينية روبرتا-WWM-EXT |
| بيرت-WWM-EXT | الصينية بيرت-ووي إم |
| بيرت وود | الصينية بيرت-ويم |
| RBT3 | RBT3 |
| RBTL3 | RBTL3 |
فيما يلي ملخص لبعض التفاصيل النموذجية التي يشعر الجميع بقلق أكثر.
| - | بيرت جوجل | بيرت وود | بيرت-WWM-EXT | روبرتا-ووي إم | روبرتا-ووي إم سي |
|---|---|---|---|---|---|
| إخفاء | وورد | WWM [1] | WWM | WWM | WWM |
| يكتب | قاعدة | قاعدة | قاعدة | قاعدة | كبير |
| مصدر البيانات | ويكي | ويكي | ويكي+تحويلة [2] | ويكي+تحويلة | ويكي+تحويلة |
| الرموز التدريبية # | 0.4b | 0.4b | 5.4b | 5.4b | 5.4b |
| جهاز | TPU POD V2 | TPU V3 | TPU V3 | TPU V3 | TPU POD V3-32 [3] |
| خطوات التدريب | ؟ | 100K MAX128 +100k max512 | 1M MAX128 +400k MAX512 | 1M MAX512 | 2M MAX512 |
| حجم الدُفعة | ؟ | 2،560 / 384 | 2،560 / 384 | 384 | 512 |
| مُحسّن | آدمو | حمَل | حمَل | آدمو | آدمو |
| مفردات | 21،128 | ~ بيرت [4] | ~ بيرت | ~ بيرت | ~ بيرت |
| نقطة التفتيش init | init عشوائي | ~ بيرت | ~ بيرت | ~ بيرت | init عشوائي |
[1] WWM = إخفاء الكلمة الكاملة
[2] تحويلة = بيانات ممتدة
[3] TPU POD V3-32 (512G HBM) يعادل 4 TPU V3 (128G HBM)
[4]~BERTيعني ورث سمات Bert الصينية الأصلية من Google
لمقارنة التأثيرات الأساسية ، قمنا باختباره على مجموعات البيانات الصينية التالية ، بما في ذلك المهام句子级ومستوى篇章级. بالنسبة إلى BERT-wwm-ext و RoBERTa-wwm-ext و RoBERTa-wwm-ext-large ، لم نؤدي إلى زيادة معدل التعلم الأمثل ، ولكننا استخدمنا مباشرة معدل التعلم الأمثل لـ BERT-wwm .
أفضل معدل تعلم:
| نموذج | بيرت | إرني | Bert-WWM* |
|---|---|---|---|
| CMRC 2018 | 3e-5 | 8e-5 | 3e-5 |
| DRCD | 3e-5 | 8e-5 | 3e-5 |
| CJRC | 4E-5 | 8e-5 | 4E-5 |
| Xnli | 3e-5 | 5e-5 | 3e-5 |
| Chnsenticorp | 2E-5 | 5e-5 | 2E-5 |
| LCQMC | 2E-5 | 3e-5 | 2E-5 |
| BQ Corpus | 3e-5 | 5e-5 | 3e-5 |
| thucnews | 2E-5 | 5e-5 | 2E-5 |
*يمثل جميع نماذج سلسلة WWM (Bert-WWM ، Bert-WWM-EXT ، Roberta-WWM-EXT ، ROBERTA-WWM-EXT-LARGE)
فقط بعض النتائج مدرجة أدناه. يرجى الاطلاع على تقريرنا الفني للحصول على النتائج الكاملة.
ملاحظة: لضمان موثوقية النتائج ، لنفس النموذج ، نقوم بتشغيل 10 مرات (بذور عشوائية مختلفة) للإبلاغ عن الحد الأقصى والمتوسط لأداء النموذج (متوسط القيم بين قوسين). إذا لم يحدث شيء غير متوقع ، فيجب أن تكون نتيجة عمليتك في هذا النطاق.
في مؤشر التقييم ، يتم تمثيل متوسط القيمة بين قوسين ويتم تمثيل القيمة القصوى خارج قوسين.
مجموعة بيانات CMRC 2018 هي بيانات فهم القراءة الصينية التي تصدرها المختبر المشترك لمعهد هاربين للتكنولوجيا. وفقًا لسؤال معين ، يحتاج النظام إلى استخراج أجزاء من الفصل مثل الإجابة ، في نفس الشكل مثل Squad. مؤشرات التقييم هي: EM / F1
| نموذج | مجموعة التنمية | مجموعة الاختبار | مجموعة التحدي |
|---|---|---|---|
| بيرت | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) |
| إرني | 65.4 (64.3) / 84.7 (84.2) | 69.4 (68.2) / 86.6 (86.1) | 19.6 (17.0) / 44.3 (42.8) |
| بيرت وود | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) |
| بيرت-WWM-EXT | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) |
| روبرتا-ووي إم | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) |
| روبرتا-ووي إم سي | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) |
تم إصدار مجموعة بيانات DRCD من قبل معهد دلتا للأبحاث ، تايوان ، الصين. شكله هو نفس المجموعة وهي عبارة عن مجموعة بيانات لفهم القراءة المستخرجة على أساس الصينيين التقليديين. نظرًا لأن الأحرف الصينية التقليدية تتم إزالة من Ernie ، فلا يوصى باستخدام Ernie (أو تحويلها إلى صينية مبسطة ثم معالجتها) على البيانات الصينية التقليدية. مؤشرات التقييم هي: EM / F1
| نموذج | مجموعة التنمية | مجموعة الاختبار |
|---|---|---|
| بيرت | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) |
| إرني | 73.2 (73.0) / 83.9 (83.8) | 71.9 (71.4) / 82.5 (82.3) |
| بيرت وود | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) |
| بيرت-WWM-EXT | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) |
| روبرتا-ووي إم | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) |
| روبرتا-ووي إم سي | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) |
مجموعة بيانات CJRC هي بيانات فهم الماكينة الصينية للمجال القضائي الصادر عن المختبر المشترك لـ Iflytek. تجدر الإشارة إلى أن البيانات المستخدمة في التجربة ليست البيانات النهائية التي صدرها المسؤول ، والنتائج للرجوع إليها فقط. مؤشرات التقييم هي: EM / F1
| نموذج | مجموعة التنمية | مجموعة الاختبار |
|---|---|---|
| بيرت | 54.6 (54.0) / 75.4 (74.5) | 55.1 (54.1) / 75.2 (74.3) |
| إرني | 54.3 (53.9) / 75.3 (74.6) | 55.0 (53.9) / 75.0 (73.9) |
| بيرت وود | 54.7 (54.0) / 75.2 (74.8) | 55.1 (54.1) / 75.4 (74.4) |
| بيرت-WWM-EXT | 55.6 (54.8) / 76.0 (75.3) | 55.6 (54.9) / 75.8 (75.0) |
| روبرتا-ووي إم | 58.7 (57.6) / 79.1 (78.3) | 59.0 (57.8) / 79.0 (78.0) |
| روبرتا-ووي إم سي | 62.1 (61.1) / 82.4 (81.6) | 62.4 (61.4) / 82.2 (81.0) |
في مهمة الاستدلال للغة الطبيعية ، نعتمد بيانات Xnli ، والتي تتطلب تقسيم النص إلى ثلاث فئات: entailment ، neutral ، contradictory . مؤشر التقييم هو: الدقة
| نموذج | مجموعة التنمية | مجموعة الاختبار |
|---|---|---|
| بيرت | 77.8 (77.4) | 77.8 (77.5) |
| إرني | 79.7 (79.4) | 78.6 (78.2) |
| بيرت وود | 79.0 (78.4) | 78.2 (78.0) |
| بيرت-WWM-EXT | 79.4 (78.6) | 78.7 (78.3) |
| روبرتا-ووي إم | 80.0 (79.2) | 78.8 (78.3) |
| روبرتا-ووي إم سي | 82.1 (81.3) | 81.2 (80.6) |
في مهمة تحليل المشاعر ، مجموعة بيانات تصنيف العاطفة الثنائية ChnsentIcorp. مؤشر التقييم هو: الدقة
| نموذج | مجموعة التنمية | مجموعة الاختبار |
|---|---|---|
| بيرت | 94.7 (94.3) | 95.0 (94.7) |
| إرني | 95.4 (94.8) | 95.4 (95.3) |
| بيرت وود | 95.1 (94.5) | 95.4 (95.0) |
| بيرت-WWM-EXT | 95.4 (94.6) | 95.3 (94.7) |
| روبرتا-ووي إم | 95.0 (94.6) | 95.6 (94.8) |
| روبرتا-ووي إم سي | 95.8 (94.9) | 95.8 (94.9) |
تحتاج مجموعتي البيانات التالية إلى تصنيف زوج الجملة لتحديد ما إذا كانت دلالات الجملتين متماثلة (مهمة التصنيف الثنائي).
تم إصدار LCQMC من قبل مركز أبحاث الحوسبة الذكي في معهد هاربين للتكنولوجيا شنتشن الدراسات العليا. مؤشر التقييم هو: الدقة
| نموذج | مجموعة التنمية | مجموعة الاختبار |
|---|---|---|
| بيرت | 89.4 (88.4) | 86.9 (86.4) |
| إرني | 89.8 (89.6) | 87.2 (87.0) |
| بيرت وود | 89.4 (89.2) | 87.0 (86.8) |
| بيرت-WWM-EXT | 89.6 (89.2) | 87.1 (86.6) |
| روبرتا-ووي إم | 89.0 (88.7) | 86.4 (86.1) |
| روبرتا-ووي إم سي | 90.4 (90.0) | 87.0 (86.8) |
يتم إصدار BQ Corpus من قبل مركز أبحاث الحوسبة الذكية لمعهد هاربين للتكنولوجيا شنتشن الدراسات العليا وهي مجموعة بيانات للمجال المصرفي. مؤشر التقييم هو: الدقة
| نموذج | مجموعة التنمية | مجموعة الاختبار |
|---|---|---|
| بيرت | 86.0 (85.5) | 84.8 (84.6) |
| إرني | 86.3 (85.5) | 85.0 (84.6) |
| بيرت وود | 86.1 (85.6) | 85.2 (84.9) |
| بيرت-WWM-EXT | 86.4 (85.5) | 85.3 (84.8) |
| روبرتا-ووي إم | 86.0 (85.4) | 85.0 (84.6) |
| روبرتا-ووي إم سي | 86.3 (85.7) | 85.8 (84.9) |
بالنسبة لمهام تصنيف النص على مستوى الفصل ، اخترنا Thucnews ، وهي مجموعة بيانات أخبار تنشرها مختبر معالجة اللغة الطبيعية بجامعة Tsinghua. نحن نأخذ إحدى المجموعات الفرعية ونحتاج إلى تقسيم الأخبار إلى واحدة من 10 فئات. مؤشر التقييم هو: الدقة
| نموذج | مجموعة التنمية | مجموعة الاختبار |
|---|---|---|
| بيرت | 97.7 (97.4) | 97.8 (97.6) |
| إرني | 97.6 (97.3) | 97.5 (97.3) |
| بيرت وود | 98.0 (97.6) | 97.8 (97.6) |
| بيرت-WWM-EXT | 97.7 (97.5) | 97.7 (97.5) |
| روبرتا-ووي إم | 98.3 (97.9) | 97.7 (97.5) |
| روبرتا-ووي إم سي | 98.3 (97.7) | 97.8 (97.6) |
فيما يلي النتائج التجريبية في العديد من مهام NLP ، ويتم توفير مقارنة نتائج مجموعة الاختبار فقط في الجدول.
| نموذج | CMRC 2018 | DRCD | Xnli | CSC | LCQMC | BQ | متوسط | كمية المعلمة |
|---|---|---|---|---|---|---|---|---|
| روبرتا-ووي إم سي | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325 م |
| روبرتا-ووي إم | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102m |
| RBTL3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61m (59.8 ٪) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38m (37.3 ٪) |
مقارنة الآثار النسبية:
| نموذج | CMRC 2018 | DRCD | Xnli | CSC | LCQMC | BQ | متوسط | متوسط التصنيف |
|---|---|---|---|---|---|---|---|---|
| روبرتا-ووي إم سي | 102.2 ٪ / 101.3 ٪ | 104.7 ٪ / 102.7 ٪ | 103.0 ٪ | 100.2 ٪ | 100.7 ٪ | 100.9 ٪ | 101.9 ٪ | 101.2 ٪ |
| روبرتا-ووي إم | 100 ٪ / 100 ٪ | 100 ٪ / 100 ٪ | 100 ٪ | 100 ٪ | 100 ٪ | 100 ٪ | 100 ٪ | 100 ٪ |
| RBTL3 | 87.2 ٪ / 93.3 ٪ | 90.2 ٪ / 93.0 ٪ | 93.9 ٪ | 98.5 ٪ | 98.5 ٪ | 98.4 ٪ | 94.3 ٪ | 97.35 ٪ |
| RBT3 | 85.7 ٪ / 91.5 ٪ | 87.6 ٪ / 91.2 ٪ | 91.8 ٪ | 97.1 ٪ | 98.5 ٪ | 98.0 ٪ | 92.9 ٪ | 96.35 ٪ |
مرحبًا بكم في Minirbt النموذج الصيني المسبق مع نتائج أفضل: https://github.com/iflytek/minirbt
BERT أو نماذج أخرى) ويجب تعديلها وفقًا للمهمة المستهدفة.ERNIE تمامًا عن BERT / BERT-wwm ، لذا تأكد من ضبط معدل التعلم عند استخدام ERNIE (استنادًا إلى النتائج التجريبية المذكورة أعلاه ، معدل التعلم الأولي الذي تتطلبه ERNIE مرتفعًا نسبيًا).BERT / BERT-wwm يستخدم بيانات ويكيبيديا للتدريب ، فهي أفضل لنمذجة النصوص الرسمية ؛ بينما يستخدم ERNIE بيانات شبكة إضافية مثل Baidu Tieba و Zhi ، والتي لها مزايا في نمذجة النصوص غير الرسمية (مثل Weibo ، إلخ).BERT و BERT-wwm نتائج أفضل.BERT أو BERT-wwm . لأننا وجدنا أنه لا يوجد صيني تقليدي تقريبًا في قائمة المفردات ERNIE . لتسهيل كل شخص للتنزيل ، أحضر نموذج English BERT-large (wwm) الذي تم إصداره رسميًا بواسطة Google :
BERT-Large, Uncased (Whole Word Masking) : 24 طبقة ، 1024-Hidden ، 16 رأس ، 340 متر معلمات
BERT-Large, Cased (Whole Word Masking) : 24 طبقة ، 1024-Hidden ، 16 رأس ، 340 متر معلمات
س: كيف تستخدم هذا النموذج؟
ج: كيفية استخدام BERT الصينية التي تم إصدارها بواسطة Google ، كيفية استخدام هذا. لا يحتاج النص إلى تجاوز تجزئة الكلمات ، ويؤثر WWM فقط على عملية ما قبل التدريب ولا يؤثر على مدخلات المهام المصب.
س: هل هناك أي رمز ما قبل التدريب المقدم؟
ج: لسوء الحظ ، لا يمكنني تقديم الكود ذي الصلة. يمكنك الرجوع إلى #10 و #13 للتنفيذ.
س: أين يتم تنزيل مجموعة بيانات معينة؟
ج: يرجى التحقق من دليل data . يشير README.md في دليل المهمة إلى مصدر البيانات. للمحتوى المحمي بحقوق الطبع والنشر ، يرجى البحث بنفسك أو الاتصال بالمؤلف الأصلي للحصول على البيانات.
س: هل ستكون هناك خطط لإصدار نموذج أكبر؟ على سبيل المثال ، إصدار Bert-Large-WWM؟
ج: إذا حصلنا على نتائج أفضل من التجربة ، فسوف نفكر في إصدار نسخة أكبر.
س: أنت تكذب! لا يمكن إعادة إنتاج النتيجة؟
ج: في مهمة المصب ، اعتمدنا أبسط نموذج. على سبيل المثال ، بالنسبة لمهام التصنيف ، نستخدم مباشرة run_classifier.py (المقدمة من Google). إذا كان لا يمكن الوصول إلى القيمة المتوسطة ، فهذا يعني أن هناك خطأ في التجربة نفسها. يرجى التحقق من ذلك بعناية. هناك العديد من العوامل العشوائية لأعلى قيمة ، ولا يمكننا أن نضمن أنه يمكننا الوصول إلى أعلى قيمة. عامل آخر معترف به: تقليل حجم الدُفعة سيقلل بشكل كبير من التأثير التجريبي. للحصول على التفاصيل ، يرجى الرجوع إلى العدد ذي الصلة من دليل Bert و XLNET.
س: سأحصل على نتائج أفضل منك!
ج: مبروك.
س: كم من الوقت يستغرق التدريب وما هي المعدات التي تدربها؟
ج: تم الانتهاء من التدريب في إصدار Google TPU V3 (128G HBM). يستغرق تدريب Bert-WWM حوالي 1.5 يومًا ، بينما يستغرق Bert-WWM-EXT عدة أسابيع (يتم استخدام المزيد من البيانات لتكرار المزيد). تجدر الإشارة إلى أنه خلال مرحلة ما قبل التدريب ، نستخدم LAMB Optimizer (تطبيق إصدار TensorFlow). هذا المُحسِّن لديه دعم جيد للدفعات الكبيرة. عند ضبط مهام المصب ، نستخدم AdamWeightDecayOptimizer الافتراضي لـ Bert.
س: من هو إرني؟
ج: يشير نموذج Ernie في هذا المشروع على وجه التحديد إلى Ernie الذي اقترحه Baidu ، بدلاً من Ernie التي نشرتها جامعة Tsinghua في ACL 2019.
س: تأثير Bert-WWM ليس جيدًا جدًا في جميع المهام
ج: الغرض من هذا المشروع هو تزويد الباحثين بنماذج متنوعة تدريب مسبقًا ، أو اختيار Bert أو Ernie أو Bert-WWM بحرية. نحن نقدم فقط بيانات تجريبية ، ولا يزال يتعين علينا بذل قصارى جهدنا باستمرار في مهامنا لاستخلاص الاستنتاجات. نموذج آخر ، خيار آخر.
س: لماذا لا تجرب بعض مجموعات البيانات؟
ج: أن أكون صريحًا ، لست في حالة مزاجية للعثور على المزيد من البيانات ؛ 2) ليس لدي ؛ 3) ليس لدي المال ؛
س: دعونا نقيم هذه النماذج بإيجاز
ج: لكل منها تركيزه الخاص ونقاط القوة الخاصة به. يتطلب البحث وتطوير معالجة اللغة الطبيعية الصينية جهودًا مشتركة من جميع الأطراف.
س: ما هو اسم النموذج المقبل الذي تتنبأ به؟
ج: ربما يسمى زوي. زوي: تضمينات صفر من نموذج اللغة
س: مزيد من التفاصيل حول نموذج RoBERTa-wwm-ext ؟
ج: نحن ندمج مزايا روبرتا وبرت وود لإنشاء مزيج طبيعي من الاثنين. الفرق بين النماذج في هذا الدليل هو كما يلي:
1) استخدم استراتيجية WWM لإخفاء مرحلة ما قبل التدريب (ولكن لا يوجد إخفاء ديناميكي)
2) ببساطة إلغاء خسارة التنبؤ بالجملة (NSP)
3) لم يعد يستخدم وضع التدريب لـ MAX_LEN = 128 ثم MAX_LEN = 512 ، تدريب MAX_LEN مباشرة = 512
4) تمديد خطوات التدريب بشكل مناسب
تجدر الإشارة إلى أن هذا النموذج ليس نموذج روبرتا الأصلي ، ولكنه مجرد نموذج بيرت مدرب في طريقة تدريب مماثلة لـ Roberta ، وهي Bert-Like Roberta. لذلك ، عند استخدام مهام المصب وتحويل النماذج ، يرجى معالجتها في Bert ، بدلاً من Roberta.
إذا كانت الموارد أو التقنيات في هذا المشروع مفيدة لعمل البحث الخاص بك ، فيرجى الرجوع إلى الورقة التالية في الورقة.
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
يتم تمويل المؤلف الأول جزئيًا من خلال برنامج السحابة البحثي لـ TPU من Google .
هذا المشروع ليس هو نموذج Bert-WWM الصيني الذي تم إصداره رسميًا بواسطة Google. في الوقت نفسه ، ليس هذا المشروع منتجًا رسميًا لمعهد هاربين للتكنولوجيا أو Iflytek. تُظهر النتائج التجريبية المقدمة في التقرير الفني فقط أن الأداء بموجب مجموعة بيانات محددة ومجموعة عالية من الفائقة لا يمثل طبيعة كل نموذج. قد تتغير النتائج التجريبية بسبب بذور العدد العشوائي وأجهزة الحوسبة. المحتوى في هذا المشروع مخصص للبحوث التقنية فقط ولا يتم استخدامه كأساس ختامي. يمكن للمستخدمين استخدام النموذج في أي وقت ضمن نطاق الترخيص ، لكننا لسنا مسؤولين عن الخسائر المباشرة أو غير المباشرة الناجمة عن استخدام محتوى المشروع.
مرحبًا بك لمتابعة الحساب الرسمي الرسمي لـ WeChat لمختبر Iflytek المشترك للتعرف على أحدث الاتجاهات الفنية.

إذا كان لديك أي أسئلة ، فيرجى إرسالها في قضية GitHub.