تبسيط الصينية | إنجليزي

صينية ماكبرت | إلكترا الصينية | صينية XLNET | أداة التقطير المعرفة TextBrewer | أداة قطع النموذج TextPruner
المزيد من الموارد التي أصدرتها HFL: https://github.com/ymcui/Hfl-Anthology
2023/3/28 Open Source Chinese Llama & Alpaca Big Model ، والذي يمكن نشره بسرعة وتجربته على الكمبيوتر الشخصي ، عرض: https://github.com/ymcui/Chinese-llama-alpaca
2022/3/30 أصدر نموذجًا جديدًا مسبقًا pert: https://github.com/ymcui/pert
2021/12/17 أصدرت نموذج TEXTPRUNER TEXTPRUNER
2021/10/24 أصدر أول نموذج مسبقًا للغات الأقلية العرقية: https://github.com/ymcui/Chinese-Minority-plm
2021/7/21 تم نشر كتاب "معالجة اللغة الطبيعية: الأساليب المستندة إلى النماذج التي تم تدريبها مسبقًا".
2020/11/3 تم إصدار Macbert الصيني المسبق مسبقًا وطريقة استخدامها هي نفس طريقة Bert.
2020/9/15 تم توظيف ورقة "إعادة النظر في النماذج التي تم تدريبها مسبقًا لمعالجة اللغة الطبيعية الصينية" كمقال طويل من خلال نتائج EMNLP.
| الفصل | يصف |
|---|---|
| مقدمة | مقدمة موجزة لماكبرت |
| تحميل | تنزيل Macbert |
| تحميل سريع | كيفية استخدام المحولات بسرعة تحميل النماذج |
| تأثير خط الأساس | الآثار على مهام NLP الصينية |
| التعليمات | الأسئلة المتداولة |
| يقتبس | معلومات الاستشهاد بالمقال |
Macbert هي نسخة محسّنة من BERT ، حيث تقدم نموذج لغة القناع المصحح للأخطاء (MLM كتصحيح ، MAC) المهمة قبل التدريب ، مما يخفف من مشكلة "المهام قبل التدريب".
في نموذج لغة القناع (MLM) ، يتم تقديم علامة [Mask] للإخفاء ، لكن علامة [Mask] لا تظهر في مهام المصب. في Macbert ، نستخدم كلمات مماثلة لاستبدال علامة [Mask] . يتم الحصول على كلمات مماثلة بواسطة أداة أدوات المرادفات (Wang and Hu ، 2017) ، ويتم حساب الخوارزمية على أساس Word2Vec (Mikolov et al. ، 2013). في الوقت نفسه ، قدمنا أيضًا تقنيات إخفاء الكلمة الكاملة (WWM) وتقنيات إخفاء N-Gram. عند إخفاء n-gram ، نبحث عن كلمات مماثلة لكل كلمة في n-gram. عندما لا تكون هناك كلمات مماثلة لاستبدالها ، سنستخدم كلمات عشوائية لاستبدالها.
فيما يلي مثال على عينة تدريب.
| مثال | |
|---|---|
| الجملة الأصلية | نستخدم نموذج لغة للتنبؤ باحتمال الكلمة التالية. |
| MLM | نستخدم لغة [M] إلى [M] ## Di ## CT The Pro [M] ## قدرة الكلمة التالية. |
| كلمة كاملة إخفاء | نستخدم لغة [M] إلى [M] [M] [M] [M] [M] للكلمة التالية. |
| N-Gram إخفاء | نستخدم [M] [M] إلى [M] [M] [M] [M] The [M] [M] [M] الكلمة التالية. |
| MLM كما تصحيح | نستخدم نظام نصية إلى Ca ## LC ## ulate the po ## si ## قدرة الكلمة التالية. |
إطار Macbert الرئيسي هو بالضبط نفس Bert ، مما يسمح بتحولات سلسة دون تعديل التعليمات البرمجية الحالية.
لمزيد من التفاصيل ، يرجى الرجوع إلى ورقتنا: إعادة النظر في النماذج التي تم تدريبها مسبقًا لمعالجة اللغة الطبيعية الصينية
يوفر بشكل أساسي تنزيلات النماذج لإصدار TensorFlow 1.x.
MacBERT-large, Chinese : 24 طبقة ، 1024-Hidden ، 16 رأس ، 324m المعلماتMacBERT-base, Chinese : 12 طبقة ، 768-Hidden ، 12 رأس ، 102 متر معلمات| نموذج | محرك Google | قرص بايدو | مقاس |
|---|---|---|---|
MacBERT-large, Chinese | Tensorflow | TensorFlow (PW: ZEJF) | 1.2 جم |
MacBERT-base, Chinese | Tensorflow | TensorFlow (PW: 61GA) | 383M |
إذا كنت بحاجة إلى إصدار Pytorch أو TensorFlow2 من النموذج:
تنزيل الخطوات (يمكنك أيضًا استنساخ الدليل بأكمله مباشرة باستخدام GIT):
يمكن تحميل نماذج Macbert بسرعة من خلال المحولات.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
ملاحظة: يرجى استخدام Berttokenizer و BertModel لتحميل نماذج Macbert!
MODEL_NAME المقابل كما يلي:
| النموذج الأصلي | اسم مكالمة النموذج |
|---|---|
| ماكبرت لارج | HFL/الصينية Macbert-large |
| Macbert-base | HFL/الصينية Macbert-base |
فيما يلي عرض لتأثير Macbert على 6 مهام المصب (انظر الورقة لمزيد من النتائج):
لضمان استقرار النتائج ، نعطي متوسط القيمة (بين أقواس) والحد الأقصى لقيمة المستقلة تعمل 10 مرات في نفس الوقت.
مجموعة بيانات CMRC 2018 هي بيانات فهم القراءة الصينية التي تصدرها المختبر المشترك لمعهد هاربين للتكنولوجيا. وفقًا لسؤال معين ، يحتاج النظام إلى استخراج أجزاء من الفصل مثل الإجابة ، في نفس الشكل مثل Squad. مؤشرات التقييم هي: EM / F1
| نموذج | تطوير | امتحان | تحدي | #Params |
|---|---|---|---|---|
| bert-base | 65.5 (64.4) / 84.5 (84.0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) | 102m |
| بيرت وود | 66.3 (65.0) / 85.6 (84.7) | 70.5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43.9) | 102m |
| بيرت-WWM-EXT | 67.1 (65.6) / 85.7 (85.0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44.6) | 102m |
| روبرتا-ووي إم | 67.4 (66.5) / 87.2 (86.5) | 72.6 (71.4) / 89.4 (88.8) | 26.2 (24.6) / 51.0 (49.1) | 102m |
| القاعدة الكهربائية | 68.4 (68.0) / 84.8 (84.6) | 73.1 (72.7) / 87.1 (86.9) | 22.6 (21.7) / 45.0 (43.8) | 102m |
| Macbert-base | 68.5 (67.3) / 87.9 (87.1) | 73.2 (72.4) / 89.5 (89.2) | 30.2 (26.4) / 54.0 (52.2) | 102m |
| Electra-large | 69.1 (68.2) / 85.2 (84.5) | 73.9 (72.8) / 87.1 (86.6) | 23.0 (21.6) / 44.2 (43.2) | 324 م |
| روبرتا-ووي إم سي | 68.5 (67.6) / 88.4 (87.9) | 74.2 (72.4) / 90.6 (90.0) | 31.5 (30.1) / 60.1 (57.5) | 324 م |
| ماكبرت لارج | 70.7 (68.6) / 88.9 (88.2) | 74.8 (73.2) / 90.7 (90.1) | 31.9 (29.6) / 60.2 (57.6) | 324 م |
تم إصدار مجموعة بيانات DRCD من قبل معهد دلتا للأبحاث ، تايوان ، الصين. شكله هو نفس المجموعة وهي عبارة عن مجموعة بيانات لفهم القراءة المستخرجة على أساس الصينيين التقليديين. نظرًا لأن الأحرف الصينية التقليدية تتم إزالة من Ernie ، فلا يوصى باستخدام Ernie (أو تحويلها إلى صينية مبسطة ثم معالجتها) على البيانات الصينية التقليدية. مؤشرات التقييم هي: EM / F1
| نموذج | تطوير | امتحان | #Params |
|---|---|---|---|
| bert-base | 83.1 (82.7) / 89.9 (89.6) | 82.2 (81.6) / 89.2 (88.8) | 102m |
| بيرت وود | 84.3 (83.4) / 90.5 (90.2) | 82.8 (81.8) / 89.7 (89.0) | 102m |
| بيرت-WWM-EXT | 85.0 (84.5) / 91.2 (90.9) | 83.6 (83.0) / 90.4 (89.9) | 102m |
| روبرتا-ووي إم | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91.7) | 102m |
| القاعدة الكهربائية | 87.5 (87.0) / 92.5 (92.3) | 86.9 (86.6) / 91.8 (91.7) | 102m |
| Macbert-base | 89.4 (89.2) / 94.3 (94.1) | 89.5 (88.7) / 93.8 (93.5) | 102m |
| Electra-large | 88.8 (88.7) / 93.3 (93.2) | 88.8 (88.2) / 93.6 (93.2) | 324 م |
| روبرتا-ووي إم سي | 89.6 (89.1) / 94.8 (94.4) | 89.6 (88.9) / 94.5 (94.1) | 324 م |
| ماكبرت لارج | 91.2 (90.8) / 95.6 (95.3) | 91.7 (90.9) / 95.6 (95.3) | 324 م |
في مهمة الاستدلال للغة الطبيعية ، نعتمد بيانات Xnli ، والتي تتطلب تقسيم النص إلى ثلاث فئات: entailment ، neutral ، contradictory . مؤشر التقييم هو: الدقة
| نموذج | تطوير | امتحان | #Params |
|---|---|---|---|
| bert-base | 77.8 (77.4) | 77.8 (77.5) | 102m |
| بيرت وود | 79.0 (78.4) | 78.2 (78.0) | 102m |
| بيرت-WWM-EXT | 79.4 (78.6) | 78.7 (78.3) | 102m |
| روبرتا-ووي إم | 80.0 (79.2) | 78.8 (78.3) | 102m |
| القاعدة الكهربائية | 77.9 (77.0) | 78.4 (77.8) | 102m |
| Macbert-base | 80.3 (79.7) | 79.3 (78.8) | 102m |
| Electra-large | 81.5 (80.8) | 81.0 (80.9) | 324 م |
| روبرتا-ووي إم سي | 82.1 (81.3) | 81.2 (80.6) | 324 م |
| ماكبرت لارج | 82.4 (81.8) | 81.3 (80.6) | 324 م |
في مهمة تحليل المشاعر ، مجموعة بيانات تصنيف العاطفة الثنائية ChnsentIcorp. مؤشر التقييم هو: الدقة
| نموذج | تطوير | امتحان | #Params |
|---|---|---|---|
| bert-base | 94.7 (94.3) | 95.0 (94.7) | 102m |
| بيرت وود | 95.1 (94.5) | 95.4 (95.0) | 102m |
| بيرت-WWM-EXT | 95.4 (94.6) | 95.3 (94.7) | 102m |
| روبرتا-ووي إم | 95.0 (94.6) | 95.6 (94.8) | 102m |
| القاعدة الكهربائية | 93.8 (93.0) | 94.5 (93.5) | 102m |
| Macbert-base | 95.2 (94.8) | 95.6 (94.9) | 102m |
| Electra-large | 95.2 (94.6) | 95.3 (94.8) | 324 م |
| روبرتا-ووي إم سي | 95.8 (94.9) | 95.8 (94.9) | 324 م |
| ماكبرت لارج | 95.7 (95.0) | 95.9 (95.1) | 324 م |
تم إصدار LCQMC من قبل مركز أبحاث الحوسبة الذكي في معهد هاربين للتكنولوجيا شنتشن الدراسات العليا. مؤشر التقييم هو: الدقة
| نموذج | تطوير | امتحان | #Params |
|---|---|---|---|
| بيرت | 89.4 (88.4) | 86.9 (86.4) | 102m |
| بيرت وود | 89.4 (89.2) | 87.0 (86.8) | 102m |
| بيرت-WWM-EXT | 89.6 (89.2) | 87.1 (86.6) | 102m |
| روبرتا-ووي إم | 89.0 (88.7) | 86.4 (86.1) | 102m |
| القاعدة الكهربائية | 90.2 (89.8) | 87.6 (87.3) | 102m |
| Macbert-base | 89.5 (89.3) | 87.0 (86.5) | 102m |
| Electra-large | 90.7 (90.4) | 87.3 (87.2) | 324 م |
| روبرتا-ووي إم سي | 90.4 (90.0) | 87.0 (86.8) | 324 م |
| ماكبرت لارج | 90.6 (90.3) | 87.6 (87.1) | 324 م |
يتم إصدار BQ Corpus من قبل مركز أبحاث الحوسبة الذكية لمعهد هاربين للتكنولوجيا شنتشن الدراسات العليا وهي مجموعة بيانات للمجال المصرفي. مؤشر التقييم هو: الدقة
| نموذج | تطوير | امتحان | #Params |
|---|---|---|---|
| بيرت | 86.0 (85.5) | 84.8 (84.6) | 102m |
| بيرت وود | 86.1 (85.6) | 85.2 (84.9) | 102m |
| بيرت-WWM-EXT | 86.4 (85.5) | 85.3 (84.8) | 102m |
| روبرتا-ووي إم | 86.0 (85.4) | 85.0 (84.6) | 102m |
| القاعدة الكهربائية | 84.8 (84.7) | 84.5 (84.0) | 102m |
| Macbert-base | 86.0 (85.5) | 85.2 (84.9) | 102m |
| Electra-large | 86.7 (86.2) | 85.1 (84.8) | 324 م |
| روبرتا-ووي إم سي | 86.3 (85.7) | 85.8 (84.9) | 324 م |
| ماكبرت لارج | 86.2 (85.7) | 85.6 (85.0) | 324 م |
س 1: هل هناك نسخة إنجليزية من ماكبرت؟
A1: لا شيء في الوقت الحالي.
س 2: كيف تستخدم ماكبرت؟
A2: تمامًا مثل استخدام BERT ، تحتاج فقط إلى استبدال ملف النموذج والتكوين لاستخدامه. بالطبع ، يمكنك أيضًا زيادة تدريب نماذج أخرى مسبقة من خلال تحميل نموذجنا (أي تهيئة قسم المحولات).
س 3: هل يمكنك تقديم رمز تدريب ماكبرت؟
A3: لا توجد خطة مفتوحة المصدر حتى الآن.
س 4: هل يمكنني فتح المصدر المسبق للمدربة؟
A4: لا يمكننا فتح المصدر التدريبي لأنه لا يوجد الحق في إعادة إصداره وفقًا لذلك. هناك بعض موارد مجموعة الصينية مفتوحة المصدر على Github ، والتي يمكنك إيلاء المزيد من الاهتمام والاستخدام.
س 5: هل هناك أي خطط لتدريب ماكبرت على مجموعة أكبر ومصدر مفتوح؟
A5: ليس لدينا خطط في الوقت الحالي.
إذا كانت الموارد في هذا المشروع مفيدة لبحثك ، فيرجى الاستشهاد بالورقة التالية.
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
أو:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
بفضل Google TPU Research Cloud (TFRC) لدعم موارد الحوسبة.
إذا كان لديك أي أسئلة ، فيرجى إرسالها في قضية GitHub.