تقييم فهم اللغة المعيار للصينيين: مجموعات البيانات ، خطوط الأساس ، النماذج المدربة مسبقًا ، جثة ومتصدرين
معايير تقييم اللغة الصينية ، بما في ذلك مجموعات البيانات التمثيلية ، ونماذج المعيار (المسبق) ، والتصنيفات ، والتصنيفات.
"تم التحديث ، 22 نوفمبر 2019"
1) [موصى به] إصدار جديد ، دعم فني أكثر منهجية وشاملة وأفضل ، قم بترحيل العنوان الجديد : https://github.com/cluebenchmark/clue
2) النسخة الكلاسيكية الأصلية ، التي تركز بشكل أساسي على المهام العملية مثل التصنيف أو مهام الجملة إلى الجملة ، ستستمر في الاحتفاظ بها وتحديثها في هذا المشروع
سنختار سلسلة من مجموعات البيانات المقابلة لمهام تمثيلية معينة كمجموعة بيانات لمعيار الاختبار الخاص بنا. تغطي مجموعات البيانات هذه المهام المختلفة ، وحجم البيانات ، وصعوبة المهمة.
| نموذج | نتيجة | المعلمة | tnews | LCQMC | Xnli | inews | BQ | مارانر | thucnews | Iflytekdata |
|---|---|---|---|---|---|---|---|---|---|---|
| bert-base | 84.57 | 108 م | 89.78 | 86.9 | 77.8 | 82.7 | 85.08 | 95.38 | 95.35 | 63.57 |
| بيرت-WWM-EXT | 84.89 | 108 م | 89.81 | 87.3 | 78.7 | 83.46 | 85.21 | 95.26 | 95.57 | 63.83 |
| إرني قاعقة | 84.63 | 108 م | 89.83 | 87.2 | 78.6 | 85.14 | 84.47 | 95.17 | 94.9 | 61.75 |
| روبرتا لارج | 85.08 | 334m | 89.91 | 87.2 | 79.9 | 84 | 85.2 | 96.07 | 94.56 | 63.8 |
| xlnet-mid | 81.07 | 209m | 86.26 | 85.98 | 78.7 | 84 | 77.85 | 92.11 | 94.54 | 60.16 |
| Albert-Xlarge | 84.08 | 59 م | 88.3 | 86.76 | 74.0؟ | 82.4 | 84.21 | 89.51 | 95.45 | 61.94 |
| ألبرت تيني | 78.22 | 1.8 م | 87.1 | 85.4 | 68 | 81.4 | 80.76 | 84.77 | 93.54 | 44.83 |
| روبرتا-ووي إم | 84.55 | 108 م | 89.79 | 86.33 | 79.28 | 82.28 | 84.02 | 95.06 | 95.52 | 64.18 |
| روبرتا وود لارج | 85.13 | 330m | 90.11 | 86.82 | 80.04 | 82.78 | 84.9 | 95.32 | 95.93 | 65.19 |
DRCD & CMRC2018: فهم القراءة المستخرجة (F1 ، EM) ؛ Chid: Idiom Multi-Trassification Reading Command (ACC) ؛ BQ: مطابقة أسئلة خدمة العملاء الذكية (ACC) ؛ Msraner: تسمية التعرف على الكيان (F1) ؛ Iflytek: تصنيف نص طويل (ACC) ؛
يتم الحصول على النتيجة عن طريق حساب متوسط الدرجات من 1-9 مجموعات البيانات ؛
| نموذج | نتيجة | المعلمة | DRCD | CMRC2018 | تشيد |
|---|---|---|---|---|---|
| bert-base | 79.08 | 108 م | 85.49 | 69.72 | 82.04 |
| بيرت-WWM-EXT | - | 108 م | 87.15 | 73.23 | - |
| إرني قاعقة | - | 108 م | 86.03 | 73.32 | - |
| روبرتا لارج | 83.32 | 334m | 89.35 | 76.11 | 84.5 |
| xlnet-mid | - | 209m | 83.28 | 66.51 | - |
| Albert-Xlarge | - | 59 م | 89.78 | 75.22 | - |
| Albert-xxlarge | - | - | - | - | - |
| ألبرت تيني | - | 1.8 م | 70.08 | 53.68 | - |
| روبرتا-ووي إم | 81.88 | 108 م | 88.12 | 73.89 | 83.62 |
| روبرتا وود لارج | 84.22 | 330m | 90.70 | 76.58 | 85.37 |
ملاحظة: عندما تتعايش F1 و EM في المؤشرات المذكورة أعلاه ، يتم اعتبار EM كمؤشر نهائي.
من أجل خدمة أفضل لفهم اللغة الصينية ، فإن المهام والصناعة ، كملحق لتقييم نموذج اللغة المشتركة ، تعزز تطور نماذج اللغة الصينية من خلال تحسين البنية التحتية لفهم اللغة الصينية.
*** 2019-10-13: أضاف موقع ويب رسمي للتقييم ؛ نموذج خط الأساس inews ***
بوابة التقييم
لماذا نحتاج إلى معيار لتقييم فهم Lanague الصيني؟
بادئ ذي بدء ، الصينية هي لغة كبيرة مع تطبيقاتها الخاصة والواسعة.
如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。
中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。
ثانياً ، مقارنة بمجموعات البيانات الإنجليزية ، هناك عدد قليل نسبيًا من مجموعات البيانات المتاحة للجمهور باللغة الصينية.
很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
مرة أخرى ، تطور فهم اللغة إلى المرحلة الحالية ، وقد عززت النماذج المدربة مسبقًا فهم اللغة الطبيعية بشكل كبير.
不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
ثم ، إذا كان هناك اختبار قياسي للمهام الصينية ، بما في ذلك مجموعة من مجموعات البيانات التي يمكن استخدامها على نطاق واسع وتقييمها من قبل الجمهور ، وخصائص المهام الصينية المعمول بها ، ومواكبة التطوير الحالي للتكنولوجيا العالمية ،
能缓解当前中文任务的一些问题,并促进相关应用的发展。
فهم فهم اللغة المعيار للصينيين (الصينيين) حصلت على أفكار من الغراء ، وهي مجموعة من
موارد التدريب وتقييم وتحليل أنظمة فهم اللغة الطبيعية. يتكون الصينيون من:
معيار لعدة جملة أو جملة زوج فهم لغة فهم. حاليًا تأتي مجموعات البيانات المستخدمة في هذه المهام من الأماكن العامة. سنقوم بتضمين مجموعات البيانات مع مجموعة اختبار خاصة قبل نهاية عام 2019.
لوحة المتصدرين العامة لتتبع الأداء. ستتمكن من إرسال ملفات التنبؤ الخاصة بك في هذه المهام ، وسيتم تقييم كل مهمة وسجلها ، وستتوفر النتيجة النهائية أيضًا.
خطوط الأساس للمهام الصينية. ستتوفر خطوط الأساس في Tensorflow و Pytorch و Keras و Paddlepaddle.
كمية هائلة من المجموعة الخام لغرض أبحاث النمذجة قبل التدريب أو اللغة. سوف تحتوي على حوالي 10G RAW Corpus في عام 2019 ؛
في الشوط الأول من عام 2020 ، ستشمل ما لا يقل عن 30 جرام RAW. بحلول نهاية عام 2020 ، سنقوم بتضمين كمية كافية من Raw Corpus ، مثل 100G ، كبير جدًا بما يكفي لدرجة أنك لن تحتاج إلى مزيد من الجسم الخام لنمذجة اللغة للأغراض العامة. يمكنك استخدامه لغرض عام أو تكيف المجال ، أو حتى لتوليد النص. عند استخدامك للتكيف مع المجال ، ستتمكن من اختيار Corpus الذي تهتم به.
المدخلات هي جملتان والإخراج هو 0 أو 1. حيث يعني 0 أن الدلالات ليست متشابهة ، و 1 يعني أن الدلالات متشابهة.
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
2.飞行员没钱买房怎么办? [分隔符] 父母没钱买房子 [分隔符] 0
تحدد مجموعة بيانات لفهم اللغة عبر اللغة ، بالنظر إلى فرضية وافتراض ، ما إذا كان هذا الافتراض والفرضية لهما آثار ومعارضة وعلاقات محايدة.
数据量:训练集(392,703),验证集(2,491),测试集(5,011)
例子:
1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 [分隔符] entailment
原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词
数据量:训练集(5,356),验证集(1,000),测试集(1,000)
例子:
1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来,九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标,努力办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。目前,该市特色教育学校有70所 ......
每行为一条数据,以_!_分割的个字段,从前往后分别是情感类别,数据id,新闻标题,新闻内容
Delta Reading Commandensive Dataset (DRCD) (https://github.com/drcknowndgeteam/drcd) هي مجموعة بيانات تقليدية من القراءة والتفاهم للآلة الصينية. من المتوقع أن تكون مجموعة البيانات هذه مجموعة بيانات صينية قياسية وفهم بيانات مناسبة لتعلم النقل.
数据量:训练集(8,016个段落,26,936个问题),验证集(1,000个段落,3,524个问题),测试集(1,000个段落,3,493个问题)
例子:
{
"version": "1.3",
"data": [
{
"title": "基督新教",
"id": "2128",
"paragraphs": [
{
"context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司, 以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀",
"id": "2128-2",
"qas": [
{
"id": "2128-2-1",
"question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
"answers": [
{
"id": "1",
"text": "因信稱義",
"answer_start": 92
}
]
},
{
"id": "2128-2-2",
"question": "哪本經典為新教的最高權威?",
"answers": [
{
"id": "1",
"text": "聖經",
"answer_start": 105
}
]
}
]
}
]
}
]
}
تنسيق البيانات هو نفس الفريق. إذا كنت تستخدم نموذجًا صينيًا مبسطًا للتقييم ، فيمكنك تحويله إلى مبسط (تم توفير هذا المشروع)
https://hfl-rc.github.io/cmrc2018/
数据量:训练集(短文数2,403,问题数10,142),试验集(短文数256,问题数1,002),开发集(短文数848,问题数3,219)
例子:
{
"version": "1.0",
"data": [
{
"title": "傻钱策略",
"context_id": "TRIAL_0",
"context_text": "工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
"qas":[
{
"query_id": "TRIAL_0_QUERY_0",
"query_text": "什么是傻钱策略?",
"answers": [
"所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合",
"其实就是买入并持有美国股票这样的普通组合",
"买入并持有美国股票这样的普通组合"
]
},
{
"query_id": "TRIAL_0_QUERY_1",
"query_text": "12月的消费者信心指数是多少?",
"answers": [
"78.1",
"78.1",
"78.1"
]
},
{
"query_id": "TRIAL_0_QUERY_2",
"query_text": "消费者信心指数由什么机构发布?",
"answers": [
"工商协进会",
"工商协进会",
"工商协进会"
]
}
]
}
]
}
تنسيق البيانات هو نفس الفريق
مجموعة البيانات هذه هي مجموعة أسئلة وأجوبة تلقائية ، مع ما مجموعه 120،000 زوج من الجملة وتميز بقيم تشابه زوج الجملة ، مع القيمة 0 أو 1 (0 تعني متباينة ، 1 يعني مماثل). هناك مشاكل مثل الأخطاء المطبعية والقواعد غير المنتظمة في البيانات ، لكنها أكثر قربًا من السيناريوهات الصناعية.
数据量:训练集(100,000),验证集(10,000),测试集(10,000)
例子:
1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
2.为什么我的还没有额度 [分隔符] 为啥没有额度!! [分隔符] 1
هناك أكثر من 50000 بيانات صينية محددة للكيان وتحديد العلامات (بما في ذلك أسماء الأشخاص وأسماء الأماكن وأسماء المؤسسات) في مجموعة البيانات هذه ، والتي يتم تمثيلها بواسطة NR و NS و NT على التوالي ، والكيانات الأخرى يتم تمثيلها بواسطة O.
数据量:训练集(46,364),测试集(4,365)
例子:
1.据说/o 应/o 老友/o 之/o 邀/o ,/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o
تحتوي مجموعة البيانات هذه على أكثر من 40،000 من بيانات ملصقات النص الطويلة القائمة على الأخبار الصينية ، مع ما مجموعه 14 فئة: "Sports": 0 ، "Entertainment": 1 ، "Home": 2 ، "Lottery": 3 ، "Real Estate": 4 ، "Education": 5 ، "Fashion": "6 ،".
数据量:训练集(33,437),验证集(4,180),测试集(4,180)
例子:
11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用 爱国者MP5简介: "爱国者"北京华旗资讯,作为国内知名数码产品制>造商。1993年创立于北京中关村,是一家致力于......
每行为一条数据,以_!_分割的个字段,从前往后分别是 类别ID,类别名称,文本ID,文本内容。
هناك أكثر من 17000 بيانات نصية ذات علامة نصية حول تطبيق تطبيقات التطبيق في مجموعة البيانات هذه ، بما في ذلك مختلف موضوعات التطبيق المتعلقة بالحياة اليومية ، مع ما مجموعه 119 فئة: "تاكسي": 0 ، "MAP MAPIGINES: 1 ،" WIFI Free ": 2 ،" RENTAL: 3 ، "،" Female ": 115 ،" Business ":" Collection Collection ": 117 ،" 117 ، "
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫,自由度非常高,可以做很多你想做的事情......
每行为一条数据,以_!_分割字段,从前往后分别是 类别ID,类别名称,文本内容。
https://arxiv.org/abs/1906.01265
المصطلح هو عباءة في الفراغات ، والعديد من التعابير في النص ملثمين ، ويحتوي المرشحون على مرادفات.
数据量:训练集(84,709),验证集(3,218),测试集(3,231)
例子:
{
"content": [
# 文段0
"……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。",
# 文段1
"在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。",
# 文段2
"最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……",
# 文段3
"“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。",
# 文段4
"从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。",
# 文段5
"……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"],
"candidates": [
"百尺竿头",
"随波逐流",
"方兴未艾",
"身体力行",
"一日千里",
"三十而立",
"逆水行舟",
"日新月异",
"百花齐放",
"沧海一粟"
]
}
تقوم بيانات Chinesemnli بتحويل بيانات MNLI الأصلية باللغة الصينية والإنجليزية. تأتي البيانات من الخيال والهاتف والسفر والحكومة والبطولة ، وما إلى ذلك ، وتستخدم للحكم على العلاقة بين الجملتين المعينتين اللذان ضمنيان ومحايدون ومتناقضان.
数据量:train(391,783),matched(9336),mismatched(8,870)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}
تتم إضافة المزيد من مجموعات البيانات ، إذا كان لديك مجموعة بيانات محددة جيدًا ، فيرجى الاتصال بنا.
أو استخدم الأمر:
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| Albert-Xlarge | 88.30 | 88.30 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| bert-base | 89.80 | 89.78 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| Bert-WWM-Ext-Base | 89.88 | 89.81 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| إرني قاعقة | 89.77 | 89.83 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| روبرتا لارج | 90.00 | 89.91 | batch_size = 16 ، الطول = 128 ، عصر = 3 |
| xlnet-mid | 86.14 | 86.26 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| روبرتا-ووي إم | 89.82 | 89.79 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| روبرتا-وورج-لارج | 90.05 | 90.11 | batch_size = 16 ، الطول = 128 ، عصر = 3 |
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| Albert-Xlarge | 74.0؟ | 74.0؟ | batch_size = 64 ، طول = 128 ، epoch = 2 |
| bert-base | 77.80 | 77.80 | batch_size = 64 ، طول = 128 ، epoch = 2 |
| Bert-WWM-Ext-Base | 79.4 | 78.7 | batch_size = 64 ، طول = 128 ، epoch = 2 |
| إرني قاعقة | 79.7 | 78.6 | batch_size = 64 ، طول = 128 ، epoch = 2 |
| روبرتا لارج | 80.2 | 79.9 | batch_size = 64 ، طول = 128 ، epoch = 2 |
| xlnet-mid | 79.2 | 78.7 | batch_size = 64 ، طول = 128 ، epoch = 2 |
| روبرتا-ووي إم | 79.56 | 79.28 | batch_size = 64 ، طول = 128 ، epoch = 2 |
| روبرتا-وورج-لارج | 80.20 | 80.04 | batch_size = 16 ، الطول = 128 ، epoch = 2 |
ملاحظة: Albert-Xlarge ، لا تزال هناك مشاكل في التدريب على مهام XNLI.
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| Albert-Xlarge | 89.00 | 86.76 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| bert-base | 89.4 | 86.9 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| Bert-WWM-Ext-Base | 89.1 | 87.3 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| إرني قاعقة | 89.8 | 87.2 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| روبرتا لارج | 89.9 | 87.2 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| xlnet-mid | 86.14 | 85.98 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| روبرتا-ووي إم | 89.08 | 86.33 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| روبرتا-وورج-لارج | 89.79 | 86.82 | batch_size = 16 ، الطول = 128 ، عصر = 3 |
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| Albert-Xlarge | 81.80 | 82.40 | batch_size = 32 ، طول = 512 ، epoch = 8 |
| bert-base | 81.29 | 82.70 | batch_size = 16 ، الطول = 512 ، epoch = 3 |
| Bert-WWM-Ext-Base | 81.93 | 83.46 | batch_size = 16 ، الطول = 512 ، epoch = 3 |
| إرني قاعقة | 84.50 | 85.14 | batch_size = 16 ، الطول = 512 ، epoch = 3 |
| روبرتا لارج | 81.90 | 84.00 | batch_size = 4 ، الطول = 512 ، epoch = 3 |
| xlnet-mid | 82.00 | 84.00 | batch_size = 8 ، طول = 512 ، epoch = 3 |
| روبرتا-ووي إم | 82.98 | 82.28 | batch_size = 16 ، الطول = 512 ، epoch = 3 |
| روبرتا-وورج-لارج | 83.73 | 82.78 | batch_size = 4 ، الطول = 512 ، epoch = 3 |
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| bert-base | F1: 92.30 EM: 86.60 | F1: 91.46 EM: 85.49 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| Bert-WWM-Ext-Base | F1: 93.27 EM: 88.00 | F1: 92.63 EM: 87.15 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| إرني قاعقة | F1: 92.78 EM: 86.85 | F1: 92.01 EM: 86.03 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| ألبرت لارج | F1: 93.90 EM: 88.88 | F1: 93.06 EM: 87.52 | دفعة = 32 ، الطول = 512 ، العصر = 3 lr = 2e-5 الاحماء = 0.05 |
| Albert-Xlarge | F1: 94.63 EM: 89.68 | F1: 94.70 EM: 89.78 | batch_size = 32 ، الطول = 512 ، epoch = 3 lr = 2.5e-5 tarmup = 0.06 |
| ألبرت تيني | F1: 81.51 EM: 71.61 | F1: 80.67 EM: 70.08 | دفعة = 32 ، الطول = 512 ، العصر = 3 lr = 2e-4 الاحماء = 0.1 |
| روبرتا لارج | F1: 94.93 EM: 90.11 | F1: 94.25 EM: 89.35 | الدُفعة = 32 ، الطول = 256 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| xlnet-mid | F1: 92.08 EM: 84.40 | F1: 91.44 EM: 83.28 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| روبرتا-ووي إم | F1: 94.26 EM: 89.29 | F1: 93.53 EM: 88.12 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| روبرتا-وورج-لارج | F1: 95.32 EM: 90.54 | F1: 95.06 EM: 90.70 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 2.5e-5 الاحماء = 0.1 |
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| bert-base | F1: 85.48 EM: 64.77 | F1: 87.17 EM: 69.72 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| Bert-WWM-Ext-Base | F1: 86.68 EM: 66.96 | F1: 88.78 EM: 73.23 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| إرني قاعقة | F1: 87.30 EM: 66.89 | F1: 89.62 EM: 73.32 | دفعة = 32 ، الطول = 512 ، العصر = 2 lr = 3e-5 الاحماء = 0.1 |
| ألبرت لارج | F1: 87.86 EM: 67.75 | F1: 90.17 EM: 73.66 | epoch3 ، دفعة = 32 ، الطول = 512 ، lr = 2e-5 ، الاحماء = 0.05 |
| Albert-Xlarge | F1: 88.66 EM: 68.90 | F1: 90.92 EM: 75.22 | epoch3 ، دفعة = 32 ، الطول = 512 ، lr = 2e-5 ، الاحماء = 0.1 |
| ألبرت تيني | F1: 73.95 EM: 48.31 | F1: 75.73 EM: 53.68 | epoch3 ، دفعة = 32 ، الطول = 512 ، lr = 2e-4 ، الاحماء = 0.1 |
| روبرتا لارج | F1: 88.61 EM: 69.94 | F1: 90.94 EM: 76.11 | epoch2 ، دفعة = 32 ، الطول = 256 ، lr = 3e-5 ، الاحماء = 0.1 |
| xlnet-mid | F1: 85.63 EM: 65.31 | F1: 86.09 EM: 66.51 | epoch2 ، دفعة = 32 ، الطول = 512 ، lr = 3e-5 ، الاحماء = 0.1 |
| روبرتا-ووي إم | F1: 87.28 EM: 67.89 | F1: 89.74 EM: 73.89 | epoch2 ، دفعة = 32 ، الطول = 512 ، lr = 3e-5 ، الاحماء = 0.1 |
| روبرتا-وورج-لارج | F1: 89.42 EM: 70.59 | F1: 91.56 EM: 76.58 | epoch2 ، دفعة = 32 ، الطول = 512 ، lr = 2.5e-5 ، الاحماء = 0.1 |
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| bert-base | 82.2 | 82.04 | دفعة = 24 ، الطول = 64 ، عصر = 3 lr = 2e-5 |
| Bert-WWM-Ext-Base | - | - | - |
| إرني قاعقة | - | - | - |
| ألبرت لارج | - | - | - |
| Albert-Xlarge | - | - | - |
| ألبرت تيني | - | - | - |
| روبرتا لارج | 85.31 | 84.5 | دفعة = 24 ، الطول = 64 ، عصر = 3 lr = 2e-5 |
| xlnet-mid | - | - | - |
| روبرتا-ووي إم | 83.78 | 83.62 | دفعة = 24 ، الطول = 64 ، عصر = 3 lr = 2e-5 |
| روبرتا-وورج-لارج | 85.81 | 85.37 | دفعة = 24 ، الطول = 64 ، عصر = 3 lr = 2e-5 |
| نموذج | متطابق | اختائم | معلمات التدريب |
|---|---|---|---|
| bert-base | 79.39 | 79.76 | دفعة = 32 ، الطول = 128 ، عصر = 3 lr = 2e-5 |
| Bert-WWM-Ext-Base | 81.41 | 80.67 | دفعة = 32 ، الطول = 128 ، عصر = 3 lr = 2e-5 |
| إرني قاعقة | 79.65 | 80.70 | دفعة = 32 ، الطول = 128 ، عصر = 3 lr = 2e-5 |
| Albert-xxlarge | - | - | - |
| ألبرت تيني | 72.71 | 72.72 | دفعة = 32 ، الطول = 128 ، عصر = 3 lr = 2e-5 |
| روبرتا لارج | - | - | - |
| xlnet-mid | 78.15 | 76.93 | دفعة = 16 ، الطول = 128 ، عصر = 3 lr = 2e-5 |
| روبرتا-ووي إم | 81.09 | 81.38 | دفعة = 32 ، الطول = 128 ، عصر = 3 lr = 2e-5 |
| روبرتا-وورج-لارج | 83.4 | 83.42 | دفعة = 32 ، الطول = 128 ، عصر = 3 lr = 2e-5 |
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| bert-base | 85.86 | 85.08 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| Bert-WWM-Ext-Base | 86.05 | 85.21 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| إرني قاعقة | 85.92 | 84.47 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| روبرتا لارج | 85.68 | 85.20 | batch_size = 8 ، طول = 128 ، epoch = 3 |
| xlnet-mid | 79.81 | 77.85 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| Albert-Xlarge | 85.21 | 84.21 | batch_size = 16 ، الطول = 128 ، عصر = 3 |
| ألبرت تيني | 82.04 | 80.76 | batch_size = 64 ، طول = 128 ، عصر = 5 |
| روبرتا-ووي إم | 85.31 | 84.02 | batch_size = 64 ، طول = 128 ، epoch = 3 |
| روبرتا-وورج-لارج | 86.34 | 84.90 | batch_size = 16 ، الطول = 128 ، عصر = 3 |
| نموذج | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|
| bert-base | 95.38 | batch_size = 16 ، طول = 256 ، epoch = 5 ، lr = 2e-5 |
| Bert-WWM-Ext-Base | 95.26 | batch_size = 16 ، طول = 256 ، epoch = 5 ، lr = 2e-5 |
| إرني قاعقة | 95.17 | batch_size = 16 ، طول = 256 ، epoch = 5 ، lr = 2e-5 |
| روبرتا لارج | 96.07 | batch_size = 8 ، طول = 256 ، epoch = 5 ، lr = 2e-5 |
| xlnet-mid | 92.11 | batch_size = 8 ، طول = 256 ، epoch = 5 ، lr = 2e-5 |
| Albert-Xlarge | 89.51 | batch_size = 16 ، الطول = 256 ، epoch = 8 ، lr = 7e-5 |
| ألبرت-قاع | 92.47 | batch_size = 32 ، طول = 256 ، epoch = 8 ، lr = 5e-5 |
| ألبرت تيني | 84.77 | batch_size = 32 ، طول = 256 ، epoch = 8 ، lr = 5e-5 |
| روبرتا-ووي إم | 95.06 | batch_size = 16 ، طول = 256 ، epoch = 5 ، lr = 2e-5 |
| روبرتا-وورج-لارج | 95.32 | batch_size = 8 ، طول = 256 ، epoch = 5 ، lr = 2e-5 |
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| Albert-Xlarge | 95.74 | 95.45 | batch_size = 32 ، طول = 512 ، epoch = 8 |
| ألبرت تيني | 92.63 | 93.54 | batch_size = 64 ، طول = 128 ، عصر = 5 |
| bert-base | 95.28 | 95.35 | batch_size = 8 ، طول = 128 ، epoch = 3 |
| Bert-WWM-Ext-Base | 95.38 | 95.57 | batch_size = 8 ، طول = 128 ، epoch = 3 |
| إرني قاعقة | 94.35 | 94.90 | batch_size = 16 ، الطول = 256 ، عصر = 3 |
| روبرتا لارج | 94.52 | 94.56 | batch_size = 2 ، الطول = 256 ، epoch = 3 |
| xlnet-mid | 94.04 | 94.54 | batch_size = 16 ، الطول = 128 ، عصر = 3 |
| روبرتا-ووي إم | 95.59 | 95.52 | batch_size = 16 ، الطول = 256 ، عصر = 3 |
| روبرتا-وورج-لارج | 96.10 | 95.93 | batch_size = 32 ، طول = 512 ، epoch = 8 |
| نموذج | مجموعة التنمية (DEV) | مجموعة الاختبار (اختبار) | معلمات التدريب |
|---|---|---|---|
| Albert-Xlarge | 61.94 | 61.34 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| ألبرت تيني | 44.83 | 44.62 | batch_size = 32 ، طول = 256 ، epoch = 3 |
| bert-base | 63.57 | 63.48 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| Bert-WWM-Ext-Base | 63.83 | 63.75 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| إرني قاعقة | 61.75 | 61.80 | batch_size = 24 ، الطول = 256 ، عصر = 3 |
| روبرتا لارج | 63.80 | 63.91 | batch_size = 32 ، طول = 128 ، epoch = 3 |
| xlnet-mid | 60.16 | 60.04 | batch_size = 16 ، الطول = 128 ، عصر = 3 |
| روبرتا-ووي إم | 64.18 | - | batch_size = 16 ، الطول = 128 ، عصر = 3 |
| روبرتا-وورج-لارج | 65.19 | 65.10 | batch_size = 32 ، طول = 128 ، epoch = 3 |
نحن نوفر لك البرامج النصية التي يمكن تشغيلها "نقرة واحدة" لمساعدتك في تشغيل مهام محددة بشكل أسرع على النماذج المحددة.
أخذ مثال تشغيل مهمة "مطابقة سؤال العملاء الذكي" على نموذج BERT ، يمكنك تشغيل البرنامج النصي Run_Classifier_ BQ .SH مباشرةً تحت صناديق الصينيين/الأساس/النماذج/ BERT /.
cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.shسيقوم البرنامج النصي تلقائيًا بتنزيل مجموعة بيانات "BQ Intelligent Serfect Yound Match" (Save in insholeglue/baselines/glue/gluegluedatasets/ bq /folder) ونموذج BERT (باستثناء الصينية/النماذج/النماذج/bert/prev_trained_model/).
لمزيد من التفاصيل ، يرجى الرجوع إلى: تدريب نموذج النموذج القياسي

يمكن استخدامه لنمذجة اللغة ، والمهام المسبقة أو التوليد ، وما إلى ذلك. يتجاوز حجم البيانات 10g ، والجزء الرئيسي يأتي من مشروع NLP_Chinese_Corpus
تتم معالجة المجموعة الحالية في [تنسيق ما قبل التدريب] ويحتوي على مجلدات متعددة ؛ يحتوي كل مجلد على العديد من الملفات الصغيرة التي لا تزيد عن 4 أمتار ، وتنسيق الملف يفي بتنسيق التدريب المسبق: سطر واحد لكل جملة ، مفصولة بخطوط فارغة بين المستندات.
يحتوي على المشكلات الفرعية التالية (مجموعة 14 غرام في المجموع):
1. News Corporate: 8G Corporate ، مقسمة إلى جزأين العلويين والسفليين ، مع ما مجموعه 2000 ملف صغير.
2. Community Interactive Corpus: 3G Corpus ، يحتوي على نص 3G ، مع ما مجموعه أكثر من 900 ملف صغير.
3. ويكيبيديا: حوالي 1.1 جرام ، يحتوي على حوالي 300 ملف صغير.
4. بيانات التعليق: حوالي 2.3 جم ، يحتوي على 811 ملفًا صغيرًا ، ودمج بيانات التعليقات المتعددة من ChineseNLPCorpus ، وتنظيف التنسيقات ، وتحويلها ، وتقسيمها إلى ملفات صغيرة.
يمكنك الحصول على هذه المجموعة عن طريق تنظيف البيانات وتحويل التنسيق من خلال العنصرين أعلاه ؛
يمكنك أيضًا الحصول على مجموعة مشروع واحد من خلال البريد الإلكتروني (الصيني glue#163.com) وإبلاغ الوحدة أو المدرسة والاسم والغرض من المجموعة ؛
للحصول على كل المجموعة بموجب مشروع الصينيين ، يجب أن تصبح عضوًا في منظمة الصينيين وإكمال مهمة (صغيرة).
1. العضو المؤسس في أول تقييم لقياس المهام الصينية الصينية
2. كن قادرًا على المساهمة مع مهنيين آخرين لتعزيز تطور معالجة اللغة الطبيعية الصينية
3. بعد المشاركة في بعض الأعمال ، احصل على مجموعة واسعة النطاق قبل التدريب التي تم تنظيفها وتدريبها مسبقًا ، والتي هي نفس Wiki & Bookcorpus الإنجليزية ، لأغراض البحث.
4. يتم إعطاء الأولوية لاستخدام النموذج الصيني مسبقًا من الفنون ، بما في ذلك الإصدارات التجريبية المختلفة أو الإصدارات غير المنشورة
أرسل بريدًا إلكترونيًا إلى Cluebenchmark#163.com لتقديم نفسك بإيجاز ، وخلفيتك ، أو عملك أو البحث ، ومؤسستك ، وحيث يمكنك المساهمة في المجتمع. سوف نتصل بك بعد التقييم.
1. جمع مجموعة بيانات تمثيلية و MIN 1 ، بشكل عام مهمة تصنيف أو جملة إلى أخرى (مطلوب 5 مجموعات بيانات إضافية)
2. يتم تحويل مهمة فهم القراءة إلى جملة إلى مهام (مثل القرائن والأسئلة أو الإجابات) وتقييمها. يجب تقسيم البيانات إلى مجموعات التدريب والتحقق واختبار.
3. أساليب التدريب والتنبؤ في باسيلز لنماذج مهمة محددة (يدعم Pytorch و Keras) ؛
4. بالنسبة للنماذج السائدة الحالية (مثل BERT/BERT_WWM_EXT/ROBERTA/Albert/ERNIE/ERNIE2.0 ، وما إلى ذلك) ، مع مجموعة بيانات الصينيين ، يتم إجراء اختبار الدقة.
على سبيل المثال: اختبارات XLNET-MID على مجموعة بيانات LCQMC
5. هل هناك أي نماذج تشارك في التقييم؟
6. تصنيف الصفحة المقصودة
7.
8. تطوير الوظائف الرئيسية لنظام التقييم
2019-10-20 إلى 2019-12-31: الإصدار التجريبي من الصينية
2020.1.1 إلى 2020-12-31: النسخة الرسمية من الصينيين
2021.1.1 إلى 2021-12-31: النسخة الفائقة من الصينية
شارك مجموعة البيانات الخاصة بك مع المجتمع أو قدم مساهمة اليوم! فقط أرسل بريدًا إلكترونيًا إلى Chineseglue#163.com ،
أو انضم إلى مجموعة QQ: 836811304
يتم إضافة المزيد من المتطوعين واحدًا تلو الآخر. . .
انظر: https://aclanthology.org/2020.coling-main.419.bib
1. الغراء: معيار متعدد المهام ومنصة تحليل لفهم اللغة الطبيعية
2. Superglue: معيار لذيذ لأنظمة فهم اللغة للأغراض العامة
3. LCQMC: مجموعة أسئلة صينية واسعة النطاق مطابقة
4. Xnli: تقييم تمثيل الجملة عبر اللغات
5
6. NLP_CHINESE_CORPUS: مجموعة صينية واسعة النطاق لـ NLP
7. Chinesenlpcorpus
8. ألبرت: لايت بيرت للتعلم الخاضع للإشراف ذاتيا لتمثيل اللغة
9. بيرت: قبل التدريب من محولات ثنائية الاتجاه العميقة لفهم اللغة
10. روبرتا: نهج بيرت المسبق ببراعة