مجموعة أدوات Python لفهم اللغة الصينية المعيار تقييم.
يمكن لمجموعة أدوات Python لفهم اللغة الصينية أن تقوم بمعايير تقييم اللغة الصينية بتقييم مجموعات البيانات التمثيلية ونماذج المعيار (المسبق) ، واختيار نماذج معيارية (pretRained) المناسبة لبياناتها الخاصة للتطبيق السريع.
مجموعات البيانات ، خطوط الأساس ، النماذج المدربة مسبقًا ، كوربوس ومتصدرين
معايير تقييم اللغة الصينية ، بما في ذلك مجموعات البيانات التمثيلية ، ونماذج المعيار (المسبق) ، والتصنيفات ، والتصنيفات.
سنختار سلسلة من مجموعات البيانات المقابلة لمهام تمثيلية معينة كمجموعة بيانات لمعيار الاختبار الخاص بنا. تغطي مجموعات البيانات هذه المهام المختلفة ، وحجم البيانات ، وصعوبة المهمة.
الآن ، يمكن تثبيت pyclue عبر PIP:
pip install --upgrade PyCLUEأو تثبيت pyclue مباشرة بواسطة Git Clone:
pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.gitيتم دعم نماذج اللغة التي تم تدريبها مسبقًا
في انتظار الدعم
ملاحظة: تتوافق مجموعة البيانات مع مجموعة البيانات التي توفرها Cluebenchmark ويتم تعديلها فقط وفقًا لذلك بالتنسيق لتناسب مشروع Pyclue.
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。
الرابط: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg رمز الاستخراج: KSD1
البرنامج النصي النموذج التدريبي الموقع: Pyclue/clue/sentence_pair/afqmc/train.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb
إرسال البرنامج النصي للملف الموقع: Pyclue/clue/sentence_pair/afqmc/predict.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb
تأتي مجموعة البيانات هذه من قسم الأخبار في Toutiao ، وتم استخراج ما مجموعه 15 فئة من الأخبار ، بما في ذلك السياحة والتعليم والتمويل والجيش ، إلخ.
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}
每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。
الرابط: https://pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq رمز الاستخراج: s9go
البرنامج النصي النموذج التدريبي الموقع: Pyclue/clue/تصنيف/tnews/Train.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb
إرسال نص الملف الموقع: Pyclue/clue/التصنيف/tnews/predict.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb
هناك أكثر من 17000 بيانات نصية ذات علامة نصية حول تطبيق تطبيقات التطبيق في مجموعة البيانات هذه ، بما في ذلك مختلف موضوعات التطبيق المتعلقة بالحياة اليومية ، مع ما مجموعه 119 فئة: "تاكسي": 0 ، "MAP MAPIGINES: 1 ،" WIFI Free ": 2 ،" RENTAL: 3 ، "،" Female ": 115 ،" Business ":" Collection Collection ": 117 ،" 117 ، "
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。
الرابط: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a رمز الاستخراج: u00v
البرنامج النصي النموذج التدريبي الموقع: pyclue/clue/clasesification/iflytek/train.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb
إرسال البرنامج النصي للملف الموقع: Pyclue/clue/التصنيف/iflytek/predict.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb
تتكون بيانات CMNLI من جزأين: Xnli و Mnli. تأتي البيانات من الخيال والهاتف والسفر والحكومة والبطولة ، إلخ. تم تحويل بيانات MNLI الأصلية وبيانات Xnli باللغة الصينية والإنجليزية ، مع الاحتفاظ بمجموعة التدريب الأصلية ، والجمع بين Dev في Xnli ومطابقة في Mnli مثل Dev of Cmnli ، والدمج بين الاختبار في Xnli في Mnli في mnli كاختبار Cmnli. يمكن استخدام مجموعة البيانات هذه لتحديد العلاقة بين الجملتين المعينتين وهما الآثار المترتبة ، المحايدة ، والمتناقضة.
数据量:train(391,782),matched(12,426),mismatched(13,880)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,蕴含关系标签。其中label标签有三种:neutral,entailment,contradiction。
الرابط: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq رمز الاستخراج: kigh
البرنامج النصي النموذج التدريبي الموقع: pyclue/clue/sentence_pair/cmnli/train.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb
إرسال البرنامج النصي الملف: pyclue/clue/sentence_pair/cmnli/predict.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb
مجموعات تشخيصية تستخدم لتقييم أداء النماذج المختلفة على ظواهر اللغة الصينية التي تلخصها 9 لغويين.
باستخدام النموذج المدربين على CMNLI ، يتم التنبؤ مباشرة بالنتائج على مجموعة التشخيص هذه. يتسق تنسيق التقديم مع CMNLI. يمكنك رؤية النتائج في صفحة تفاصيل الترتيب. (ملاحظة: تحتوي مجموعة البيانات هذه على مجموعة التدريب ومجموعة اختبار CMNLI)
الرابط: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw رمز الاستخراج: U194
البرنامج النصي النموذج التدريبي الموقع: pyclue/clue/sentence_pair/diagnostics/train.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb
إرسال البرنامج النصي للملف الموقع: Pyclue/clue/sentence_pair/diagnostics/predict.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb
التكميلية.
يمكن أن تقبل مهام التصنيف المتعددة ، مثل تصنيف النص ، وتصنيف العاطفة ، وما إلى ذلك ، شكلين: إدخال جملة واحد وإدخال زوج الجملة.
يجب أن يحتوي دليل البيانات على ملفات train.txt و dev.txt و absels.txt على الأقل ، ويمكن إضافة ملفات test.txt.
حفظ المرجع النموذج:
إدخال جملة واحدة (المقابلة لـ task_type = 'single' في البرنامج النصي للتقييم): pyclue/أمثلة/تصنيف/single_data_templates/، https://github.com/cluebenchmark/pyclue/blob/master/classification/single_data_templates
إدخال زوج الجملة (المقابلة لـ task_type = 'pairs' في البرنامج النصي للتقييم): pyclue/أمثلة/تصنيف/pairs_data_templates/، https://github.com/cluebenchmark/pyclue/blob/master/classification/parista_data_tafferates
ملاحظة: يجب استخدام t كفاصل.
البرنامج النصي النموذج التدريبي الموقع: Pyclue/أمثلة/تصنيف/Train.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb
موقع البرنامج النصي المتوقع: Pyclue/أمثلة/تصنيف/Predict.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb
الجملة إلى المهمة (الشبكة التوأم) ، مثل الجملة إلى المهمة المماثلة ، وما إلى ذلك ، تختلف عن نموذج الجملة إلى المدخلات في مهام التصنيف المتعدد: الجمل في مهام التصنيف المتعددة تستخدم نموذج الربط الشبيه بـ Bert لإدخال المهمة ، بينما تستخدم هذه المهمة شكل شبكة مزدوجة.
يجب أن يحتوي دليل البيانات على ملفات train.txt و dev.txt و absels.txt على الأقل ، ويمكن إضافة ملفات test.txt.
حفظ المرجع النموذج:
أدخل: pyclue/أمثلة/sentence_pair/data_templates/، https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates
ملاحظة: يجب استخدام t كفاصل.
البرنامج النصي النموذج التدريبي الموقع: Pyclue/أمثلة/sentence_pair/train.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb
موقع البرنامج النصي المتوقع: Pyclue/Ampumpaments/sentence_pair/predict.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb
استخدم مهام مطابقة النص (الشبكة التوأم) ، مثل البحث عن الأسئلة الشائعة ، والبحث عن مطابقة QQ والمهام الأخرى ، وشبكة التوأم لإنشاء معلومات التضمين لجمل الإدخال ، واستخدام HNSWLIB لاسترداد الجمل الأكثر مماثلة.
يجب أن يحتوي دليل البيانات على ملفات cache.txt على الأقل ، train.txt ، dev.txt و absels.txt ، ويمكنك إضافة ملفات test.txt.
حفظ المرجع النموذج:
الإدخال: pyclue/أمثلة/text_matching/data_templates/، https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates
ملاحظة: يجب استخدام t كفاصل.
البرنامج النصي النموذج التدريبي الموقع: Pyclue/أمثلة/text_matching/train.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb
موقع البرنامج النصي المتوقع: pyclue/أمثلة/text_matching/predict.ipynb
المرجع: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb
يحتوي ملف النموذج على 10 ملفات طراز نقاط التفتيش وملفات طراز PB (10 ملفات طراز Checkpoint التي تؤدي بشكل أفضل على مجموعة الاختبار dev.txt).
ملفات المؤشرات (Train_Metrics.png) التي تم إنشاؤها بواسطة عملية التدريب هي الدقة ، ومؤشرات Total_loss ، و Batch_loss ، و Precision ، و Rection و F1.
إذا كان هناك اختبار ملف التحقق. TXT وبدأ كل سطر من ملف التحقق بـ true_label ، يتم طباعة مؤشر أفضل نموذج على ملف التحقق.
تحديث.
العنوان الرسمي: https://github.com/cluebenchmark/pyclue
عنوان التصحيح: https://github.com/liushaoweihua/pyclue