Compréhension du langage Référence d'évaluation pour les chinois: ensembles de données, lignes de base, modèles pré-formés, corpus et classement
Benchmarks d'évaluation de la compréhension de la langue chinoise, y compris des ensembles de données représentatifs, des modèles de référence (pré-entraînés), du corpus et des classements.
"Mis à jour, 22 novembre 2019"
1) [recommandée] nouvelle version, plus systématique, complète et meilleure prise en charge technique, migrer la nouvelle adresse : https://github.com/cluebenchmark/clue
2) La version classique originale, se concentrant principalement sur des tâches pratiques telles que la classification ou les tâches de phrase à la phrase, continuera d'être conservées et mises à jour dans ce projet
Nous sélectionnerons une série d'ensembles de données correspondant à certaines tâches représentatives comme ensemble de données pour notre référence de test. Ces ensembles de données couvrent différentes tâches, volume de données et difficulté de tâche.
| Modèle | Score | paramètre | Tnews | LCQMC | Xnli | Inews | Bq | Mâle | Thucnews | iflytekdata |
|---|---|---|---|---|---|---|---|---|---|---|
| Bascule | 84.57 | 108m | 89,78 | 86.9 | 77.8 | 82.7 | 85.08 | 95.38 | 95.35 | 63.57 |
| Bert-wwm- | 84.89 | 108m | 89.81 | 87.3 | 78.7 | 83.46 | 85.21 | 95.26 | 95,57 | 63.83 |
| Ernie-base | 84.63 | 108m | 89.83 | 87.2 | 78.6 | 85.14 | 84.47 | 95.17 | 94.9 | 61.75 |
| Plus grand | 85.08 | 334m | 89.91 | 87.2 | 79.9 | 84 | 85.2 | 96.07 | 94.56 | 63.8 |
| XLNET-MID | 81.07 | 209m | 86.26 | 85,98 | 78.7 | 84 | 77.85 | 92.11 | 94.54 | 60.16 |
| Albert-xlarge | 84.08 | 59m | 88.3 | 86.76 | 74.0? | 82.4 | 84.21 | 89.51 | 95.45 | 61.94 |
| Albert-Tiny | 78.22 | 1,8 m | 87.1 | 85.4 | 68 | 81.4 | 80.76 | 84.77 | 93.54 | 44.83 |
| Roberta-wwm-ext | 84.55 | 108m | 89,79 | 86.33 | 79.28 | 82.28 | 84.02 | 95.06 | 95,52 | 64.18 |
| Roberta-wwm-glancier | 85.13 | 330m | 90.11 | 86.82 | 80.04 | 82.78 | 84.9 | 95.32 | 95,93 | 65.19 |
DRCD & CMRC2018: Compréhension de la lecture extraite (F1, EM); CHID: Compréhension de la lecture multi-classification idiome (ACC); BQ: Matchage de questions de service client intelligent (ACC); MSRANER: reconnaissance de l'entité de dénomination (F1); iflyTek: Long Text Classification (ACC);
Le score est obtenu en calculant les scores moyens de 1 à 9 ensembles de données;
| Modèle | Score | paramètre | DRCD | CMRC2018 | Se déshabiller |
|---|---|---|---|---|---|
| Bascule | 79.08 | 108m | 85.49 | 69.72 | 82.04 |
| Bert-wwm- | - | 108m | 87.15 | 73.23 | - |
| Ernie-base | - | 108m | 86.03 | 73.32 | - |
| Plus grand | 83.32 | 334m | 89.35 | 76.11 | 84.5 |
| XLNET-MID | - | 209m | 83.28 | 66.51 | - |
| Albert-xlarge | - | 59m | 89,78 | 75.22 | - |
| Albert-xxlarge | - | - | - | - | - |
| Albert-Tiny | - | 1,8 m | 70.08 | 53,68 | - |
| Roberta-wwm-ext | 81.88 | 108m | 88.12 | 73.89 | 83.62 |
| Roberta-wwm-glancier | 84.22 | 330m | 90,70 | 76,58 | 85.37 |
Remarque: Lorsque F1 et EM coexistent dans les indicateurs ci-dessus, EM est considéré comme l'indicateur final.
Afin de mieux servir la compréhension de la langue chinoise, les tâches et l'industrie, en complément de l'évaluation du modèle de langue commune, favorisent le développement des modèles de langue chinoise en améliorant l'infrastructure de compréhension de la langue chinoise.
*** 2019-10-13: Ajout d'un site Web officiel pour l'évaluation; Modèle de base IneWs ***
Portail d'évaluation
Pourquoi avons-nous besoin d'une référence pour l'évaluation chinoise de la compréhension de la lanague?
Tout d'abord, le chinois est une grande langue avec ses propres applications spécifiques et étendues.
如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。
中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。
Deuxièmement, par rapport aux ensembles de données anglais, il y a relativement peu d'ensembles de données accessibles au public en chinois.
很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
Encore une fois, la compréhension du langage s'est développée à l'étape actuelle, et les modèles pré-formés ont considérablement favorisé la compréhension du langage naturel.
不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
Ensuite, s'il existe un test de référence pour les tâches chinoises, y compris un lot d'ensembles de données qui peuvent être largement utilisés et évalués par le public, les caractéristiques des tâches chinoises applicables et suivre le développement actuel de la technologie mondiale,
能缓解当前中文任务的一些问题,并促进相关应用的发展。
Compréhension de la langue Benchmark pour les chinois (chinois) a obtenu des idées de Glue, qui est une collection de
Ressources pour la formation, l'évaluation et l'analyse des systèmes de compréhension du langage naturel. ChineseGlue se compose de:
Une référence de plusieurs tâches de compréhension du langage de la paire de phrases ou de phrases. Actuellement, les ensembles de données utilisés dans ces tâches proviennent du public. Nous inclurons des ensembles de données avec un ensemble de tests privé avant la fin de 2019.
Un classement public pour le suivi des performances. Vous pourrez soumettre vos fichiers de prédiction sur ces tâches, chaque tâche sera évaluée et notée, un score final sera également disponible.
Lignes de base pour les tâches de Glusle Glue. Les lignes de base seront disponibles dans TensorFlow, Pytorch, Keras et Paddlepaddle.
Une énorme quantité de corpus brut pour un objectif de recherche sur la modélisation de la transformation ou du langage. Il contiendra environ 10 g de corpus brut en 2019;
Au cours du premier demi-année de 2020, il comprendra au moins 30 g de corpus brut; À la fin de 2020, nous inclurons suffisamment de corpus brut, tels que 100g, donc suffisamment grand pour que vous n'aurez plus besoin de corpus brut pour la modélisation du langage à usage général. Vous pouvez l'utiliser à des fins générales ou à une adaptation de domaine, ou même pour la génération de texte. Lorsque vous utilisez pour l'adaptation du domaine, vous pourrez sélectionner Corpus qui vous intéresse.
L'entrée est de deux phrases et la sortie est 0 ou 1. Lorsque 0 signifie que la sémantique n'est pas similaire, et 1 signifie que la sémantique est similaire.
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
2.飞行员没钱买房怎么办? [分隔符] 父母没钱买房子 [分隔符] 0
Un ensemble de données pour la compréhension transversale, compte tenu d'une prémisse et d'une hypothèse, déterminez si cette hypothèse et cette prémisse ont des implications, des oppositions et des relations neutres.
数据量:训练集(392,703),验证集(2,491),测试集(5,011)
例子:
1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 [分隔符] entailment
原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词
数据量:训练集(5,356),验证集(1,000),测试集(1,000)
例子:
1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来,九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标,努力办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。目前,该市特色教育学校有70所 ......
每行为一条数据,以_!_分割的个字段,从前往后分别是情感类别,数据id,新闻标题,新闻内容
Delta Reading Comprehension DataSet (DRCD) (https://github.com/drcknowledgetam/drcd) est un ensemble de données traditionnel de lecture et de compréhension chinoise traditionnelle de la machine chinoise. Cet ensemble de données devrait être un ensemble de données de lecture et de compréhension chinois standard adaptés à l'apprentissage de la relocalisation.
数据量:训练集(8,016个段落,26,936个问题),验证集(1,000个段落,3,524个问题),测试集(1,000个段落,3,493个问题)
例子:
{
"version": "1.3",
"data": [
{
"title": "基督新教",
"id": "2128",
"paragraphs": [
{
"context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司, 以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀",
"id": "2128-2",
"qas": [
{
"id": "2128-2-1",
"question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
"answers": [
{
"id": "1",
"text": "因信稱義",
"answer_start": 92
}
]
},
{
"id": "2128-2-2",
"question": "哪本經典為新教的最高權威?",
"answers": [
{
"id": "1",
"text": "聖經",
"answer_start": 105
}
]
}
]
}
]
}
]
}
Le format de données est le même que l'escouade. Si vous utilisez un modèle chinois simplifié pour l'évaluation, vous pouvez le transformer en simplifié (ce projet a été fourni)
https://hfl-rc.github.io/cmrc2018/
数据量:训练集(短文数2,403,问题数10,142),试验集(短文数256,问题数1,002),开发集(短文数848,问题数3,219)
例子:
{
"version": "1.0",
"data": [
{
"title": "傻钱策略",
"context_id": "TRIAL_0",
"context_text": "工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
"qas":[
{
"query_id": "TRIAL_0_QUERY_0",
"query_text": "什么是傻钱策略?",
"answers": [
"所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合",
"其实就是买入并持有美国股票这样的普通组合",
"买入并持有美国股票这样的普通组合"
]
},
{
"query_id": "TRIAL_0_QUERY_1",
"query_text": "12月的消费者信心指数是多少?",
"answers": [
"78.1",
"78.1",
"78.1"
]
},
{
"query_id": "TRIAL_0_QUERY_2",
"query_text": "消费者信心指数由什么机构发布?",
"answers": [
"工商协进会",
"工商协进会",
"工商协进会"
]
}
]
}
]
}
Le format de données est le même que l'escouade
Cet ensemble de données est un corpus de système de questions et réponses automatique, avec un total de 120 000 paires de phrases et marqué avec des valeurs de similitude de la paire de phrases, avec la valeur 0 ou 1 (0 signifie différente, 1 signifie similaire). Il y a des problèmes tels que les fautes de frappe et la grammaire irrégulière dans les données, mais elles sont plus proches des scénarios industriels.
数据量:训练集(100,000),验证集(10,000),测试集(10,000)
例子:
1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
2.为什么我的还没有额度 [分隔符] 为啥没有额度!! [分隔符] 1
Il existe plus de 50 000 chinois d'identification et d'étiquetage des données chinoises (y compris les noms de personnes, les noms de lieux et les noms d'organisation) dans cet ensemble de données, qui sont représentés respectivement par NR, NS et NT, et d'autres entités sont représentées par O.
数据量:训练集(46,364),测试集(4,365)
例子:
1.据说/o 应/o 老友/o 之/o 邀/o ,/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o
Cet ensemble de données a plus de 40 000 données sur les étiquettes de texte longue sur les nouvelles chinoises, avec un total de 14 catégories: "Sports": 0, "Entertainment": 1, "Home": 2, "Lottery": 3, "Real Estate": 4, "Education": "Fashion": 6, "Current Affairs": 7, "Zodiac": 8, "Game": "Society": 10 "," Technology ": 11," Stock ":" Financial ": 13.
数据量:训练集(33,437),验证集(4,180),测试集(4,180)
例子:
11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用 爱国者MP5简介: "爱国者"北京华旗资讯,作为国内知名数码产品制>造商。1993年创立于北京中关村,是一家致力于......
每行为一条数据,以_!_分割的个字段,从前往后分别是 类别ID,类别名称,文本ID,文本内容。
Il y a plus de 17 000 données de longue date étiquetées sur les descriptions d'applications de l'application dans cet ensemble de données, y compris divers sujets d'application liés à la vie quotidienne, avec un total de 119 catégories: "Taxi": 0, "Map Navigation": 1, "WiFi gratuit": 2, "Car Rental": 3, ...., "Female": 115, "Business": 116, "Cash Collection": 117, "Autres": 118 (Représenté par 0-18 respecté).
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫,自由度非常高,可以做很多你想做的事情......
每行为一条数据,以_!_分割字段,从前往后分别是 类别ID,类别名称,文本内容。
https://arxiv.org/abs/1906.01265
L'idiome est cloze dans les blancs, et de nombreux idiomes dans le texte sont masqués et les candidats contiennent des synonymes.
数据量:训练集(84,709),验证集(3,218),测试集(3,231)
例子:
{
"content": [
# 文段0
"……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。",
# 文段1
"在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。",
# 文段2
"最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……",
# 文段3
"“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。",
# 文段4
"从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。",
# 文段5
"……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"],
"candidates": [
"百尺竿头",
"随波逐流",
"方兴未艾",
"身体力行",
"一日千里",
"三十而立",
"逆水行舟",
"日新月异",
"百花齐放",
"沧海一粟"
]
}
Les données de Chinenemnli convertient les données MNLI d'origine en chinois et en anglais. Les données proviennent de la fiction, du téléphone, des voyages, du gouvernement, de l'ardoise, etc., et est utilisée pour juger de la relation entre les deux phrases données implicites, neutres et contradictoires.
数据量:train(391,783),matched(9336),mismatched(8,870)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}
D'autres ensembles de données sont ajoutés, si vous avez un ensemble de données bien défini, veuillez nous contacter.
Ou utilisez la commande:
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Albert-xlarge | 88.30 | 88.30 | Batch_size = 32, longueur = 128, époque = 3 |
| Bascule | 89.80 | 89,78 | Batch_size = 32, longueur = 128, époque = 3 |
| Bert-wwm-bas-base | 89,88 | 89.81 | Batch_size = 32, longueur = 128, époque = 3 |
| Ernie-base | 89,77 | 89.83 | Batch_size = 32, longueur = 128, époque = 3 |
| Plus grand | 90,00 | 89.91 | Batch_size = 16, longueur = 128, époque = 3 |
| XLNET-MID | 86.14 | 86.26 | Batch_size = 32, longueur = 128, époque = 3 |
| Roberta-wwm-ext | 89,82 | 89,79 | Batch_size = 32, longueur = 128, époque = 3 |
| Roberta-wwm-Large-Ext | 90.05 | 90.11 | Batch_size = 16, longueur = 128, époque = 3 |
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Albert-xlarge | 74.0? | 74.0? | Batch_size = 64, longueur = 128, époque = 2 |
| Bascule | 77.80 | 77.80 | Batch_size = 64, longueur = 128, époque = 2 |
| Bert-wwm-bas-base | 79.4 | 78.7 | Batch_size = 64, longueur = 128, époque = 2 |
| Ernie-base | 79.7 | 78.6 | Batch_size = 64, longueur = 128, époque = 2 |
| Plus grand | 80.2 | 79.9 | Batch_size = 64, longueur = 128, époque = 2 |
| XLNET-MID | 79.2 | 78.7 | Batch_size = 64, longueur = 128, époque = 2 |
| Roberta-wwm-ext | 79.56 | 79.28 | Batch_size = 64, longueur = 128, époque = 2 |
| Roberta-wwm-Large-Ext | 80.20 | 80.04 | Batch_size = 16, longueur = 128, époque = 2 |
Remarque: Albert-XlARGE, il y a encore des problèmes à la formation sur les tâches XNLI.
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Albert-xlarge | 89.00 | 86.76 | Batch_size = 64, longueur = 128, époque = 3 |
| Bascule | 89.4 | 86.9 | Batch_size = 64, longueur = 128, époque = 3 |
| Bert-wwm-bas-base | 89.1 | 87.3 | Batch_size = 64, longueur = 128, époque = 3 |
| Ernie-base | 89.8 | 87.2 | Batch_size = 64, longueur = 128, époque = 3 |
| Plus grand | 89.9 | 87.2 | Batch_size = 64, longueur = 128, époque = 3 |
| XLNET-MID | 86.14 | 85,98 | Batch_size = 64, longueur = 128, époque = 3 |
| Roberta-wwm-ext | 89.08 | 86.33 | Batch_size = 64, longueur = 128, époque = 3 |
| Roberta-wwm-Large-Ext | 89,79 | 86.82 | Batch_size = 16, longueur = 128, époque = 3 |
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Albert-xlarge | 81.80 | 82.40 | Batch_size = 32, longueur = 512, époque = 8 |
| Bascule | 81.29 | 82.70 | Batch_size = 16, longueur = 512, époque = 3 |
| Bert-wwm-bas-base | 81.93 | 83.46 | Batch_size = 16, longueur = 512, époque = 3 |
| Ernie-base | 84.50 | 85.14 | Batch_size = 16, longueur = 512, époque = 3 |
| Plus grand | 81.90 | 84.00 | Batch_size = 4, longueur = 512, époque = 3 |
| XLNET-MID | 82.00 | 84.00 | Batch_size = 8, longueur = 512, époque = 3 |
| Roberta-wwm-ext | 82.98 | 82.28 | Batch_size = 16, longueur = 512, époque = 3 |
| Roberta-wwm-Large-Ext | 83,73 | 82.78 | Batch_size = 4, longueur = 512, époque = 3 |
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Bascule | F1: 92.30 EM: 86.60 | F1: 91,46 EM: 85,49 | lot = 32, longueur = 512, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| Bert-wwm-bas-base | F1: 93,27 EM: 88.00 | F1: 92,63 EM: 87.15 | lot = 32, longueur = 512, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| Ernie-base | F1: 92,78 EM: 86,85 | F1: 92.01 EM: 86.03 | lot = 32, longueur = 512, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| Albert-grand | F1: 93,90 EM: 88,88 | F1: 93,06 EM: 87,52 | lot = 32, longueur = 512, époque = 3 LR = 2E-5 Échauffement = 0,05 |
| Albert-xlarge | F1: 94,63 EM: 89,68 | F1: 94,70 EM: 89,78 | Batch_size = 32, longueur = 512, époque = 3 lr = 2,5e-5 échauffement = 0,06 |
| Albert-Tiny | F1: 81,51 EM: 71.61 | F1: 80.67 EM: 70.08 | lot = 32, longueur = 512, époque = 3 lr = 2e-4 échauffement = 0,1 |
| Plus grand | F1: 94,93 EM: 90.11 | F1: 94,25 EM: 89,35 | lot = 32, longueur = 256, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| XLNET-MID | F1: 92.08 EM: 84.40 | F1: 91,44 EM: 83,28 | lot = 32, longueur = 512, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| Roberta-wwm-ext | F1: 94,26 EM: 89.29 | F1: 93,53 EM: 88.12 | lot = 32, longueur = 512, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| Roberta-wwm-Large-Ext | F1: 95,32 EM: 90,54 | F1: 95.06 EM: 90,70 | lot = 32, longueur = 512, époque = 2 lr = 2,5e-5 échauffement = 0,1 |
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Bascule | F1: 85,48 EM: 64,77 | F1: 87.17 EM: 69,72 | lot = 32, longueur = 512, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| Bert-wwm-bas-base | F1: 86,68 EM: 66,96 | F1: 88,78 EM: 73.23 | lot = 32, longueur = 512, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| Ernie-base | F1: 87.30 EM: 66.89 | F1: 89,62 EM: 73.32 | lot = 32, longueur = 512, époque = 2 LR = 3E-5 Échauffement = 0,1 |
| Albert-grand | F1: 87,86 EM: 67,75 | F1: 90.17 EM: 73.66 | Epoch3, lot = 32, longueur = 512, LR = 2E-5, échauffement = 0,05 |
| Albert-xlarge | F1: 88,66 EM: 68,90 | F1: 90,92 EM: 75.22 | Epoch3, lot = 32, longueur = 512, LR = 2E-5, échauffement = 0,1 |
| Albert-Tiny | F1: 73,95 EM: 48,31 | F1: 75,73 EM: 53,68 | Epoch3, lot = 32, longueur = 512, LR = 2E-4, échauffement = 0,1 |
| Plus grand | F1: 88,61 EM: 69,94 | F1: 90,94 EM: 76.11 | Epoch2, lot = 32, longueur = 256, LR = 3E-5, échauffement = 0,1 |
| XLNET-MID | F1: 85,63 EM: 65.31 | F1: 86.09 EM: 66.51 | Epoch2, lot = 32, longueur = 512, LR = 3E-5, échauffement = 0,1 |
| Roberta-wwm-ext | F1: 87,28 EM: 67,89 | F1: 89,74 EM: 73,89 | Epoch2, lot = 32, longueur = 512, LR = 3E-5, échauffement = 0,1 |
| Roberta-wwm-Large-Ext | F1: 89.42 EM: 70,59 | F1: 91,56 EM: 76,58 | Epoch2, lot = 32, longueur = 512, LR = 2,5E-5, échauffement = 0,1 |
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Bascule | 82.2 | 82.04 | lot = 24, longueur = 64, époque = 3 lr = 2e-5 |
| Bert-wwm-bas-base | - | - | - |
| Ernie-base | - | - | - |
| Albert-grand | - | - | - |
| Albert-xlarge | - | - | - |
| Albert-Tiny | - | - | - |
| Plus grand | 85.31 | 84.5 | lot = 24, longueur = 64, époque = 3 lr = 2e-5 |
| XLNET-MID | - | - | - |
| Roberta-wwm-ext | 83,78 | 83.62 | lot = 24, longueur = 64, époque = 3 lr = 2e-5 |
| Roberta-wwm-Large-Ext | 85.81 | 85.37 | lot = 24, longueur = 64, époque = 3 lr = 2e-5 |
| Modèle | assorti | Mignon | Paramètres de formation |
|---|---|---|---|
| Bascule | 79.39 | 79.76 | lot = 32, longueur = 128, époque = 3 lr = 2e-5 |
| Bert-wwm-bas-base | 81.41 | 80.67 | lot = 32, longueur = 128, époque = 3 lr = 2e-5 |
| Ernie-base | 79.65 | 80.70 | lot = 32, longueur = 128, époque = 3 lr = 2e-5 |
| Albert-xxlarge | - | - | - |
| Albert-Tiny | 72.71 | 72.72 | lot = 32, longueur = 128, époque = 3 lr = 2e-5 |
| Plus grand | - | - | - |
| XLNET-MID | 78.15 | 76.93 | lot = 16, longueur = 128, époque = 3 lr = 2e-5 |
| Roberta-wwm-ext | 81.09 | 81.38 | lot = 32, longueur = 128, époque = 3 lr = 2e-5 |
| Roberta-wwm-Large-Ext | 83.4 | 83.42 | lot = 32, longueur = 128, époque = 3 lr = 2e-5 |
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Bascule | 85.86 | 85.08 | Batch_size = 64, longueur = 128, époque = 3 |
| Bert-wwm-bas-base | 86.05 | 85.21 | Batch_size = 64, longueur = 128, époque = 3 |
| Ernie-base | 85,92 | 84.47 | Batch_size = 64, longueur = 128, époque = 3 |
| Plus grand | 85,68 | 85.20 | Batch_size = 8, longueur = 128, époque = 3 |
| XLNET-MID | 79.81 | 77.85 | Batch_size = 32, longueur = 128, époque = 3 |
| Albert-xlarge | 85.21 | 84.21 | Batch_size = 16, longueur = 128, époque = 3 |
| Albert-Tiny | 82.04 | 80.76 | Batch_size = 64, longueur = 128, époque = 5 |
| Roberta-wwm-ext | 85.31 | 84.02 | Batch_size = 64, longueur = 128, époque = 3 |
| Roberta-wwm-Large-Ext | 86.34 | 84.90 | Batch_size = 16, longueur = 128, époque = 3 |
| Modèle | Test Set (test) | Paramètres de formation |
|---|---|---|
| Bascule | 95.38 | Batch_size = 16, longueur = 256, époque = 5, lr = 2e-5 |
| Bert-wwm-bas-base | 95.26 | Batch_size = 16, longueur = 256, époque = 5, lr = 2e-5 |
| Ernie-base | 95.17 | Batch_size = 16, longueur = 256, époque = 5, lr = 2e-5 |
| Plus grand | 96.07 | Batch_size = 8, longueur = 256, époque = 5, lr = 2e-5 |
| XLNET-MID | 92.11 | Batch_size = 8, longueur = 256, époque = 5, lr = 2e-5 |
| Albert-xlarge | 89.51 | Batch_size = 16, longueur = 256, époque = 8, lr = 7e-5 |
| ALBERT-BASE | 92.47 | Batch_size = 32, longueur = 256, époque = 8, lr = 5e-5 |
| Albert-Tiny | 84.77 | Batch_size = 32, longueur = 256, époque = 8, lr = 5e-5 |
| Roberta-wwm-ext | 95.06 | Batch_size = 16, longueur = 256, époque = 5, lr = 2e-5 |
| Roberta-wwm-Large-Ext | 95.32 | Batch_size = 8, longueur = 256, époque = 5, lr = 2e-5 |
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Albert-xlarge | 95,74 | 95.45 | Batch_size = 32, longueur = 512, époque = 8 |
| Albert-Tiny | 92.63 | 93.54 | Batch_size = 64, longueur = 128, époque = 5 |
| Bascule | 95.28 | 95.35 | Batch_size = 8, longueur = 128, époque = 3 |
| Bert-wwm-bas-base | 95.38 | 95,57 | Batch_size = 8, longueur = 128, époque = 3 |
| Ernie-base | 94.35 | 94.90 | Batch_size = 16, longueur = 256, époque = 3 |
| Plus grand | 94.52 | 94.56 | Batch_size = 2, longueur = 256, époque = 3 |
| XLNET-MID | 94.04 | 94.54 | Batch_size = 16, longueur = 128, époque = 3 |
| Roberta-wwm-ext | 95,59 | 95,52 | Batch_size = 16, longueur = 256, époque = 3 |
| Roberta-wwm-Large-Ext | 96.10 | 95,93 | Batch_size = 32, longueur = 512, époque = 8 |
| Modèle | Ensemble de développement (DEV) | Test Set (test) | Paramètres de formation |
|---|---|---|---|
| Albert-xlarge | 61.94 | 61.34 | Batch_size = 32, longueur = 128, époque = 3 |
| Albert-Tiny | 44.83 | 44.62 | Batch_size = 32, longueur = 256, époque = 3 |
| Bascule | 63.57 | 63.48 | Batch_size = 32, longueur = 128, époque = 3 |
| Bert-wwm-bas-base | 63.83 | 63,75 | Batch_size = 32, longueur = 128, époque = 3 |
| Ernie-base | 61.75 | 61.80 | Batch_size = 24, longueur = 256, époque = 3 |
| Plus grand | 63.80 | 63.91 | Batch_size = 32, longueur = 128, époque = 3 |
| XLNET-MID | 60.16 | 60.04 | Batch_size = 16, longueur = 128, époque = 3 |
| Roberta-wwm-ext | 64.18 | - | Batch_size = 16, longueur = 128, époque = 3 |
| Roberta-wwm-Large-Ext | 65.19 | 65.10 | Batch_size = 32, longueur = 128, époque = 3 |
Nous vous fournissons des scripts qui peuvent être exécutés "un clic" pour vous aider à exécuter des tâches spécifiques plus rapidement sur des modèles spécifiés.
Prenant l'exemple de l'exécution de la tâche "BQ Intelligent Service Question Matching" sur le modèle Bert, vous pouvez exécuter le script RUN_CLASSIFIER_ BQ .sh directement sous ChineseGlue / Baslines / Models / Bert /.
cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.shLe script téléchargera automatiquement le jeu de données "BQ Intelligent Customer Service Question Match" (Save in ChineseGlue / Baselines / Glue / ChineseGlueDatasets / BQ / Dossier) et le modèle Bert (en sauvegarde dans ChineseGlue / Baslines / Models / Bert / PREV_TRAINE_MODEL /).
Pour plus de détails, veuillez vous référer à: Formation du modèle de modèle de référence

Peut être utilisé pour la modélisation du langage, les tâches de pré-formation ou de génération, etc. Le volume de données dépasse 10 g, et la partie principale provient du projet NLP_Chinese_Corpus
Le corpus actuel est traité au [format de pré-formation] et contient plusieurs dossiers; Chaque dossier dispose de nombreux petits fichiers de la taille pas plus de 4 m, et le format de fichier répond au format de pré-formation: une ligne par phrase, séparée par des lignes vides entre les documents.
Contient le sous-corpus suivant (corpus 14G au total):
1. News Corporate: 8G Corporate, divisé en deux parties supérieures et inférieures, avec un total de 2 000 petits dossiers.
2. Community Interactive Corpus: 3G Corpus, contenant du texte 3G, avec un total de plus de 900 petits fichiers.
3. Wikipedia: environ 1,1 g de texte, contenant environ 300 petits fichiers.
4. Données de commentaire: environ 2,3 g de texte, contenant 811 petits fichiers, fusionnez plusieurs données de commentaires de Chinesenlpcorpus, nettoyer, convertir les formats et se diviser en petits fichiers.
Vous pouvez obtenir ces corpus en nettoyant les données et en convertissant le format via les deux éléments ci-dessus;
Vous pouvez également obtenir le corpus d'un seul projet par e-mail (ChineseGlue # 163.com) et informer l'unité ou l'école, le nom et le but du corpus;
Pour obtenir tout le corpus dans le cadre du projet Chinese Glue, vous devez devenir membre de l'organisation ChineseGlue et accomplir une (petite) tâche.
1. Membre fondateur de la première évaluation de référence chinoise de la Chine
2. Être en mesure de contribuer avec d'autres professionnels pour promouvoir le développement de la transformation chinoise du langage naturel
3. Après avoir participé à certains travaux, obtenez un corpus pré-entraînement à grande échelle qui a été nettoyé et pré-formé, ce qui est le même que le wiki et le bookcorpus anglais, à des fins de recherche.
4. La priorité est accordée à l'utilisation du modèle chinois pré-formé de l'état de l'art, y compris diverses versions d'essai ou versions non publiées
Envoyez un e-mail à ClueBenchmark # 163.com pour vous présenter brièvement, vos antécédents, votre travail ou votre recherche de recherche, votre organisation et où vous pouvez contribuer à la communauté. Nous vous contacterons après l'évaluation.
1. Collectez et mine 1 ensemble de données représentatifs, généralement une tâche de classification ou de phrase à la phrase (5 ensembles de données supplémentaires sont requis)
2. La tâche de compréhension en lecture est transformée en phrase à tâches (telles que des indices et des questions ou des réponses) et évaluée. Les données doivent être divisées en ensembles de formation, de vérification et de tests.
3. Méthodes et scripts de formation et de prédiction de Bâle pour des modèles de tâches spécifiques (prend en charge Pytorch et Keras);
4. Pour les modèles traditionnels actuels (tels que Bert / Bert_WWM_EXT / ROBERTA / Albert / Ernie / Ernie2.0, etc.), combinés avec un ensemble de données ChineseGlue, un test de précision est effectué.
Par exemple: Tests XLNET-MID sur l'ensemble de données LCQMC
5. Y a-t-il des modèles participant à l'évaluation?
6. Page de destination de classement
7. Introduction à la référence d'évaluation de la compréhension de la langue chinoise (Chinese Glue)
8. Développement des principales fonctions du système d'évaluation
2019-10-20 à 2019-12-31: version bêta de ChineseGlue
2020.1.1 à 2020-12-31: Version officielle de ChineseGlue
2021.1.1 à 2021-12-31: Super version de ChineseGlue
Partagez votre ensemble de données avec la communauté ou apportez une contribution aujourd'hui! Envoyez simplement un e-mail à ChineseGlue # 163.com,
ou rejoignez le groupe QQ: 836811304
Plus de bénévoles sont ajoutés l'un après l'autre. . .
Voir: https://aclanthology.org/2020.Coling-Main.419.bib
1. Glue: une référence multi-tâches et une plate-forme d'analyse pour la compréhension du langage naturel
2. Superglue: une référence plus collante pour les systèmes de compréhension du langage à usage général
3. LCQMC: un corpus de question de question chinois à grande échelle correspondant
4. XNLI: Évaluation des représentations de phrases croisées
5. TNES: TOUTIAO-TEXT-CLASFICATION-DATASET
6. NLP_CHINESE_CORPUS: Corpus chinois à grande échelle pour NLP
7. Chinesenlpcorpus
8. Albert: un lite bert pour l'apprentissage auto-supervisé des représentations linguistiques
9. Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage
10. Roberta: une approche de pré-formation de Bert optimisée à optimisation robuste