الصينية | إنجليزي
على الرغم من أن نماذج اللغة التي تم تدريبها مسبقًا قد استخدمت على نطاق واسع في مختلف مجالات NLP ، إلا أن تكاليف طاقة الحوسبة المرتفعة وحسابها لا تزال مشكلة ملحة. هذا يتطلب منا تطوير نماذج ذات مؤشرات أفضل تحت قيود طاقة الحوسبة معينة.
هدفنا هو عدم متابعة أحجام النماذج الأكبر ، ولكن نماذج خفيفة الوزن ولكن أكثر قوة ، في حين أن أكثر قابلية للنشر والصناعة الصديقة للهبوط.
استنادًا إلى طرق مثل تكامل المعلومات اللغوية وتسارع التدريب ، قمنا بتطوير نموذج سلسلة Mengzi. بفضل بنية النموذج بما يتوافق مع BERT ، يمكن أن يحل نموذج Mengzi محل النماذج الموجودة بسرعة.
للحصول على تقارير تقنية مفصلة ، يرجى الرجوع إلى:
منغزي: نحو نماذج خفيفة الوزن ولكنها مبدعة تم تدريبها قبل الصينية
أضف نموذجين بنية GPT مفتوح المصدر:
Huajingyun
Hululuzhu استنادًا إلى Mengzi-T5-base ، يتم تدريب نموذج كتابة AI الصيني لتوليد الشعر والأزواج. للنموذج والاستخدام المحدد ، يرجى الرجوع إلى: صينية-كاشف سهم
بعض أمثلة الجيل:
上: 不待鸣钟已汗颜,重来试手竟何艰
下: 何堪击鼓频催泪?一别伤心更枉然
上: 北国风光,千里冰封,万里雪飘
下: 南疆气象,五湖浪涌,三江潮来
標題: 作诗:中秋
詩歌: 秋氣侵肌骨,寒光入鬢毛。雲收千里月,風送一帆高。
標題: 作诗:中秋 模仿:苏轼
詩歌: 月從海上生,照我庭下影。不知此何夕,但見天宇靜。
بفضل نموذج إصدار Paddlenlp والوثائق التي يوفرها فريق PaddlePaddle.
ملاحظة: لا يعد نموذج إصدار Paddlenlp نتاجًا لتكنولوجيا Lanzhou ، ونحن لا نتحمل المسؤولية المقابلة عن نتائجها ونتائجها.
| نموذج | كمية المعلمة | السيناريوهات المعمول بها | سمات | الرابط تنزيل |
|---|---|---|---|---|
| Mengzi-Bert-Base | 110 م | مهام فهم اللغة الطبيعية مثل تصنيف النص ، والتعرف على الكيان ، واستخراج العلاقة ، وفهم القراءة | مثل بنية BERT ، يمكن استبدال أوزان BERT الحالية مباشرة. | Huggingface ، تنزيل zip المحلي ، paddlenlp |
| Mengzi-Bert-L6-H768 | 60 م | مهام فهم اللغة الطبيعية مثل تصنيف النص ، والتعرف على الكيان ، واستخراج العلاقة ، وفهم القراءة | تم الحصول عليها من قبل Mengzi-bert-large التقطير | luggingface |
| Mengzi-Bert-Base-Fin | 110 م | مهام فهم اللغة الطبيعية في المجال المالي | التدريب على مجموعة مالية على أساس منغزي برايس | Huggingface ، تنزيل zip المحلي ، paddlenlp |
| Mengzi-T5-base | 220 م | مناسبة لمهام توليد النصوص التي يمكن التحكم فيها مثل توليد الكتابة وتوليد الأخبار | نفس هيكل T5 ، لا يشمل مهام المصب ، ويجب استخدامه بعد Finetune في مهمة محددة. على عكس تحديد موقع GPT ، فهي ليست مناسبة لتتمة النص | Huggingface ، تنزيل zip المحلي ، paddlenlp |
| Mengzi-T5-Base-MT | 220 م | قدم قدرات صفر وقدرات قليلة | نموذج تعدد المهام ، يمكنه إكمال مختلف المهام من خلال المطالبة | luggingface |
| Mengzi-oscar-base | 110 م | مناسبة لوصف الصور والصور والنصوص والمهام الأخرى | نموذج متعدد الوسائط يعتمد على Mengzi-base-base. تدريب على مليون صورة وأزواج نصية | luggingface |
| Mengzi-gpt-neo-base | 125m | مهمة استمرار النص | استنادًا إلى تدريب Corpus Corpus ، مناسبة كنموذج أساسي للعمل ذي الصلة | luggingface |
| بلوم 389M-ZH | 389m | مهمة استمرار النص | يقلل نموذج بلوم الذي يقطع الإصدارات متعددة اللغات القائمة على المجموعة الصينية من الحاجة إلى ذاكرة الفيديو | luggingface |
| بلوم -800M-ZH | 800 متر | مهمة استمرار النص | يقلل نموذج بلوم الذي يقطع الإصدارات متعددة اللغات القائمة على المجموعة الصينية من الحاجة إلى ذاكرة الفيديو | luggingface |
| بلوم -1B4-ZH | 1400 م | مهمة استمرار النص | يقلل نموذج بلوم الذي يقطع الإصدارات متعددة اللغات القائمة على المجموعة الصينية من الحاجة إلى ذاكرة الفيديو | luggingface |
| بلوم 2B5-ZH | 2500 متر | مهمة استمرار النص | يقلل نموذج بلوم الذي يقطع الإصدارات متعددة اللغات القائمة على المجموعة الصينية من الحاجة إلى ذاكرة الفيديو | luggingface |
| بلوم -6B4-ZH | 6400 م | مهمة استمرار النص | يقلل نموذج بلوم الذي يقطع الإصدارات متعددة اللغات القائمة على المجموعة الصينية من الحاجة إلى ذاكرة الفيديو | luggingface |
| Regpt-125M-200g | 125m | مهمة استمرار النص | نموذج مدرب على GPT-NEO-125M عبر https://github.com/langboat/mengzi- retrival-lm | luggingface |
| غووهوا الانتشار | - | جيل من أسلوب الرسم الصيني والنص | تدريب Dreambooth استنادًا إلى Stablediffusion v1.5 | luggingface |
# 使用 Huggingface transformers 加载
from transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )أو
# 使用 PaddleNLP 加载
from paddlenlp . transformers import BertTokenizer , BertModel
tokenizer = BertTokenizer . from_pretrained ( "Langboat/mengzi-bert-base" )
model = BertModel . from_pretrained ( "Langboat/mengzi-bert-base" )مدمجة في مساحات Huggingface مع Gradio. انظر العرض التوضيحي:
# 使用 Huggingface transformers 加载
from transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )أو
# 使用 PaddleNLP 加载
from paddlenlp . transformers import T5Tokenizer , T5ForConditionalGeneration
tokenizer = T5Tokenizer . from_pretrained ( "Langboat/mengzi-t5-base" )
model = T5ForConditionalGeneration . from_pretrained ( "Langboat/mengzi-t5-base" )المستندات المرجعية
# 使用 Huggingface transformers 加载
pip install transformersأو
# 使用 PaddleNLP 加载
pip install paddlenlp| نموذج | AFQMC | tnews | Iflytek | cmnli | WSC | CSL | CMRC2018 | C3 | تشيد |
|---|---|---|---|---|---|---|---|---|---|
| روبرتا-ووي إم | 74.30 | 57.51 | 60.80 | 80.70 | 67.20 | 80.67 | 77.59 | 67.06 | 83.78 |
| Mengzi-Bert-Base | 74.58 | 57.97 | 60.68 | 82.12 | 87.50 | 85.40 | 78.54 | 71.70 | 84.16 |
| Mengzi-Bert-L6-H768 | 74.75 | 56.68 | 60.22 | 81.10 | 84.87 | 85.77 | 78.06 | 65.49 | 80.59 |
تقدم Roberta-WWM-Mex
| مهمة | معدل التعلم | حجم الدُفعة العالمية | الحقبة |
|---|---|---|---|
| AFQMC | 3e-5 | 32 | 10 |
| tnews | 3e-5 | 128 | 10 |
| Iflytek | 3e-5 | 64 | 10 |
| cmnli | 3e-5 | 512 | 10 |
| WSC | 8e-6 | 64 | 50 |
| CSL | 5e-5 | 128 | 5 |
| CMRC2018 | 5e-5 | 8 | 5 |
| C3 | 1E-4 | 240 | 3 |
| تشيد | 5e-5 | 256 | 5 |

Wangyulong [at] langboat [dot] com
Q. Mengzi-Bert-base حجم النموذج المحفوظ هو 196m. ولكن هل حجم نموذج Bert-Base حوالي 389 متر؟ هل هناك أي اختلاف في القاعدة المحددة ، أم أنها تفتقد بعض المحتوى غير الضروري عند حفظه؟
ج: هذا لأن Mengzi-Base-base مدرب مع FP16.
س: ما هو مصدر البيانات للنماذج المالية التي تم تدريبها مسبقًا؟
ج: الأخبار المالية والإعلانات والتقارير البحثية التي تزحف على صفحات الويب.
س: هل هناك نموذج إصدار TensorFlow؟
ج: يمكنك تحويلها بنفسك.
س: هل يمكن أن يكون رمز التدريب مفتوحًا؟
ج: بسبب الاقتران الضيق مع البنية التحتية الداخلية ، لا توجد خطة حاليًا.
س: كيف يمكننا تحقيق نفس تأثير توليد النص على موقع Langboat الرسمي؟
ج: يعتمد نموذج توليد النص الأساسي لدينا على بنية T5. يمكن أن تشير خوارزمية توليد النص الأساسية إلى ورقة T5 من Google: https://arxiv.org/pdf/1910.10683.pdf. نموذج Mengzi-T5 مفتوح المصدر هو نفس بنية طراز T5 من Google T5 ، وهو نموذج عام مدرب مسبقًا وليس لديه مهام توليد نصية خاصة. تتمثل ميزة توليد كتاب التسويق في استخدام كمية كبيرة من البيانات عليها لمهمينات مجرى النهر المحددة. على هذا الأساس ، من أجل تحقيق تأثيرات توليد يمكن التحكم فيها ، قمنا ببناء مجموعة كاملة من خطوط أنابيب توليد النص: من تنظيف البيانات ، استخراج المعرفة ، بناء بيانات التدريب إلى تقييم جودة التوليد. يتم تخصيص معظمها وفقًا لسيناريوهات التنفيذ التجاري: يتم إنشاء مهام مختلفة للتدريب والطفيرة وفقًا لتلبية احتياجات العمل المختلفة وأشكال البيانات المختلفة. يتضمن هذا الجزء بنيات برامج معقدة نسبيًا وسيناريوهات أعمال محددة ، ولم نقم بعد بإجراء المصدر المفتوح بعد.
س: هل يمكن لاستنتاج منغزي-T5 مباشرة؟
ج: نشير إلى T5 V1.1 ولا ندرج مهام المصب.
س: ما الذي يجب أن أفعله إذا قمت بتحميل الأخطاء مع محول Huggingface؟
ج: حاول إضافة force_download=True .
س: تميل Mengzi-T5-base دائمًا إلى توليد مرشحين للكلمة الحبيبية عند القيام بالتوليد القياسي ، في حين أن MT5 هو العكس ، يفضل أن تكون التفاصيل الكلمة. هل هذه هي عملية التدريب هي كلمة التفاصيل؟
ج: بدلاً من استخدام مفردات MT5 ، قمنا بإعادة تدريب الرمز المميز على أساس المجموعة ، بما في ذلك المزيد من المفردات. وبهذه الطريقة ، بعد تشفير النصوص من نفس الطول ، سيكون عدد الرموز المميزة أصغر ، وسيكون استخدام الذاكرة أصغر ، وستكون سرعة التدريب أسرع.
المحتوى في هذا المشروع مخصص للبحوث التقنية فقط ولا يتم استخدامه كأساس ختامي. يمكن للمستخدمين استخدام النموذج في أي وقت ضمن نطاق الترخيص ، لكننا لسنا مسؤولين عن الخسائر المباشرة أو غير المباشرة الناجمة عن استخدام محتوى المشروع. تُظهر النتائج التجريبية المقدمة في التقرير الفني فقط أن الأداء بموجب مجموعة بيانات محددة ومجموعة عالية من الفائقة لا يمثل طبيعة كل نموذج. قد تتغير النتائج التجريبية بسبب بذور العدد العشوائي وأجهزة الحوسبة.
أثناء عملية استخدام هذا النموذج بطرق مختلفة (بما في ذلك على سبيل المثال لا الحصر ، التعديل والاستخدام المباشر والاستخدام من خلال أطراف ثالثة) ، لا يجوز للمستخدمين الانخراط بشكل مباشر أو غير مباشر في أفعال تنتهك القوانين واللوائح القضائية التي ينتمون إليها على سبيل المثال لا الحصر ، لا يقتصرون على كل هذا التعديل. أي مسؤولية قانونية أو مشتركة.
لدينا الحق في تفسير وتعديل وتحديث إخلاء المسئولية هذا.
@misc{zhang2021mengzi,
title={Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese},
author={Zhuosheng Zhang and Hanqing Zhang and Keming Chen and Yuhang Guo and Jingyun Hua and Yulong Wang and Ming Zhou},
year={2021},
eprint={2110.06696},
archivePrefix={arXiv},
primaryClass={cs.CL}
}