من خلال تنظيف الجزء الصيني من الزحف الشائع ، حصلنا أخيرًا على 100 جيجابايت من مجموعة صينية عالية الجودة تم تدريبنا. يتم عرض النماذج التي تنتجها التجربة في: النماذج الصينية عالية الجودة التي تم تدريبها مسبقًا ، ونماذج كبيرة من النماذج التي تم تدريبها مسبقًا وتشابهها.
لمزيد من التفاصيل ، يرجى الرجوع إلى تقريرنا الفني https://arxiv.org/pdf/2003.01355

إحصائيات المفردات الصينية الأصلية من Google والمفردات الصغيرة التي نشرناها هي كما يلي:
| نوع الرمز المميز | جوجل | فكرة |
|---|---|---|
| مبسطة الصينية | 11378 | 5689 |
| الصينية التقليدية | 3264 | ✗ |
| إنجليزي | 3529 | 1320 |
| اليابانية | 573 | ✗ |
| كوري | 84 | ✗ |
| الرموز التعبيرية | 56 | ✗ |
| أرقام | 1179 | 140 |
| الرموز الخاصة | 106 | 106 |
| الرموز الأخرى | 959 | 766 |
| المجموع | 21128 | 8021 |
مقارنة التأثيرات على قاعدة Bert باستخدام مجموعات البيانات الصغيرة:
| نموذج | المفردات | بيانات | خطوات | AFQMC | tnews ' | Iflytek ' | cmnli | متوسط |
|---|---|---|---|---|---|---|---|---|
| bert-base | جوجل | ويكي (1 غيغابايت) | 125k | 69.93 ٪ | 54.77 ٪ | 57.54 ٪ | 75.64 ٪ | 64.47 ٪ |
| bert-base | جوجل | C5 (1 غيغابايت) | 125k | 69.63 ٪ | 55.72 ٪ | 58.87 ٪ | 75.75 ٪ | 64.99 ٪ |
| bert-base | فكرة | C5 (1 غيغابايت) | 125k | 69.00 ٪ | 55.04 ٪ | 59.07 ٪ | 75.84 ٪ | 64.74 ٪ |
| Bert-Base MM | جوجل | C5 (1 غيغابايت) | 125k | 69.57 ٪ | 55.17 ٪ | 59.69 ٪ | 75.86 ٪ | 65.07 ٪ |
| bert-base | جوجل | C5 (1 غيغابايت) | 375K | 69.85 ٪ | 55.97 ٪ | 59.62 ٪ | 76.41 ٪ | 65.46 ٪ |
| bert-base | فكرة | C5 (1 غيغابايت) | 375K | 69.93 ٪ | 56.38 ٪ | 59.35 ٪ | 76.58 ٪ | 65.56 ٪ |
| bert-base | جوجل | C5 (3 جيجابايت) | 375K | 70.22 ٪ | 56.41 ٪ | 59.58 ٪ | 76.70 ٪ | 65.73 ٪ |
| bert-base | فكرة | C5 (3 جيجابايت) | 375K | 69.49 ٪ | 55.97 ٪ | 60.12 ٪ | 77.66 ٪ | 65.81 ٪ |
لمزيد من النتائج التجريبية والتحليل ، يرجى الرجوع إلى: CluePretrainedModels
طريقة التطبيق: سيتم إرسال الغرض والغرض من استخدام أبحاث Corpus ، والخطط ، ومؤسسات البحث ، ومقدمات المتقدمين إلى عنوان البريد الإلكتروني ، ووعد بعدم توفيره لأطراف ثالثة.
البريد الإلكتروني: [email protected] ، العنوان هو: ClueCorpus2020 200g Corpus
يمكن استخدامه لنمذجة اللغة ، أو التدريب المسبق أو المهام التوليدية ، وما إلى ذلك. يتجاوز حجم البيانات 14 جرام ، ما يقرب من 4000 ملف TXT محدد جيدًا و 5 مليارات كلمة. يأتي الجزء الرئيسي من مشروع NLP_Chinese_Corpus
تتم معالجة المجموعة الحالية في [تنسيق ما قبل التدريب] ويحتوي على مجلدات متعددة ؛ يحتوي كل مجلد على العديد من الملفات الصغيرة التي لا تزيد عن 4 أمتار ، وتنسيق الملف يفي بتنسيق التدريب المسبق: سطر واحد لكل جملة ، مفصولة بخطوط فارغة بين المستندات.
يحتوي على المشكلات الفرعية التالية (مجموعة 14 غرام في المجموع):
1. News Corpus News2016ZH_CORPUS: 8G Corpus ، مقسمة إلى جزأين العلويين والسفليين ، مع ما مجموعه 2000 ملف صغير. كلمة المرور: MZLK
2. التفاعل المجتمعي corpus webtext2019zh_corpus: 3G Corpus ، يحتوي على نص 3G ، وما مجموعه أكثر من 900 ملف صغير. كلمة المرور: QVLQ
3. ويكيبيديا-كوربوس ويكي 2019zh_corpus: حوالي 1.1 غرام ، يحتوي على حوالي 300 ملف صغير. كلمة المرور: XV7E
4. بيانات التعليقات - Corpus Comments2019zh_corpus: نص حول 2.3 جم ، ما مجموعه 784 ملفًا صغيرًا ، بما في ذلك 547 تعليقًا و 227 تعليقات Amazon ، ودمج بيانات التعليقات المتعددة من Chinesenlpcorpus ، وتنظيف ، وتحويل التنسيقات ، وتقسيمها إلى ملفات صغيرة. كلمة المرور: GC3M
يمكنك تقديم مشكلة والانضمام إلى مجموعة المناقشة (QQ: 836811304)
أو أرسل بريدًا إلكترونيًا إلى [email protected]
الأبحاث المدعومة بـ Cloud TPUs من Cloud TensorFlow Research من Google (TFRC)
@article{CLUECorpus2020,
title={CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model},
author={Liang Xu and Xuanwei Zhang and Qianqian Dong},
journal={ArXiv},
year={2020},
volume={abs/2003.01355}
}
Clue هي منظمة مفتوحة المصدر مخصصة لمعالجة اللغة الطبيعية الصينية. إذا كنت تعتقد أن عملنا مفيد لدراستك أو عملك ، فأنت تأمل في الحصول على رعايتك حتى نتمكن من تزويدك بمزيد من العمل المفتوح المصدر في المستقبل. دعونا نبذل قصارى جهدنا لتطوير وتقدم معالجة اللغة الطبيعية الصينية ~
يرجى ملاحظة المنظمة المانحة والاسم ، شكرا جزيلا لك!
| alipay | |
|---|---|
![]() | ![]() |