Comprensión de idiomas El punto de referencia de evaluación para chino: conjuntos de datos, líneas de base, modelos previamente capacitados, corpus y tabla de clasificación
Los puntos de referencia de evaluación de la evaluación del idioma chino, incluidos conjuntos de datos representativos, modelos de referencia (previos a los petróleo), corpus y clasificaciones.
"Actualizado, 22 de noviembre de 2019"
1) [recomendado] nueva versión, más sistemática, integral y mejor soporte técnico, migra la nueva dirección : https://github.com/cluebenchmark/clue
2) La versión clásica original, centrada principalmente en tareas prácticas como la clasificación o las tareas de oración a orientación, continuará siendo retenido y actualizado en este proyecto
Seleccionaremos una serie de conjuntos de datos correspondientes a ciertas tareas representativas como el conjunto de datos para nuestro punto de referencia de prueba. Estos conjuntos de datos cubren diferentes tareas, volumen de datos y dificultades de tareas.
| Modelo | Puntaje | parámetro | TNEWS | LCQMC | Xnli | Inews | Bq | Msraner | Tucnews | iflytekdata |
|---|---|---|---|---|---|---|---|---|---|---|
| Base | 84.57 | 108m | 89.78 | 86.9 | 77.8 | 82.7 | 85.08 | 95.38 | 95.35 | 63.57 |
| Bert-wwm-ext | 84.89 | 108m | 89.81 | 87.3 | 78.7 | 83.46 | 85.21 | 95.26 | 95.57 | 63.83 |
| Ernie-base | 84.63 | 108m | 89.83 | 87.2 | 78.6 | 85.14 | 84.47 | 95.17 | 94.9 | 61.75 |
| Roberta-Large | 85.08 | 334m | 89.91 | 87.2 | 79.9 | 84 | 85.2 | 96.07 | 94.56 | 63.8 |
| XLNET-MID | 81.07 | 209m | 86.26 | 85.98 | 78.7 | 84 | 77.85 | 92.11 | 94.54 | 60.16 |
| Albert-xlarge | 84.08 | 59m | 88.3 | 86.76 | 74.0? | 82.4 | 84.21 | 89.51 | 95.45 | 61.94 |
| Albert diminuto | 78.22 | 1.8m | 87.1 | 85.4 | 68 | 81.4 | 80.76 | 84.77 | 93.54 | 44.83 |
| Roberta-wwm-ext | 84.55 | 108m | 89.79 | 86.33 | 79.28 | 82.28 | 84.02 | 95.06 | 95.52 | 64.18 |
| Roberta-WWM-Large | 85.13 | 330 m | 90.11 | 86.82 | 80.04 | 82.78 | 84.9 | 95.32 | 95.93 | 65.19 |
DRCD y CMRC2018: Comprensión de lectura extraída (F1, EM); CHID: comprensión de lectura de clasificación múltiple Idiom (ACC); BQ: Información inteligente del servicio al cliente (ACC); MSRANER: reconocimiento de entidad de nombres (F1); iflytek: clasificación de texto largo (ACC);
La puntuación se obtiene calculando los puntajes promedio de 1-9 conjuntos de datos;
| Modelo | Puntaje | parámetro | Guarnalda | CMRC2018 | Chid |
|---|---|---|---|---|---|
| Base | 79.08 | 108m | 85.49 | 69.72 | 82.04 |
| Bert-wwm-ext | - | 108m | 87.15 | 73.23 | - |
| Ernie-base | - | 108m | 86.03 | 73.32 | - |
| Roberta-Large | 83.32 | 334m | 89.35 | 76.11 | 84.5 |
| XLNET-MID | - | 209m | 83.28 | 66.51 | - |
| Albert-xlarge | - | 59m | 89.78 | 75.22 | - |
| Albert-xxlarge | - | - | - | - | - |
| Albert diminuto | - | 1.8m | 70.08 | 53.68 | - |
| Roberta-wwm-ext | 81.88 | 108m | 88.12 | 73.89 | 83.62 |
| Roberta-WWM-Large | 84.22 | 330 m | 90.70 | 76.58 | 85.37 |
Nota: Cuando F1 y EM coexisten en los indicadores anteriores, EM se toma como el indicador final.
Para servir mejor a la comprensión del idioma chino, las tareas y la industria, como suplemento para la evaluación del modelo de idioma común, promueve el desarrollo de modelos de idiomas chinos al mejorar la infraestructura de comprensión del idioma chino.
*** 2019-10-13: agregó un sitio web oficial para la evaluación; Modelo de línea de base inews ***
Portal de evaluación
¿Por qué necesitamos un punto de referencia para la evaluación de comprensión de la lanague china?
En primer lugar, el chino es un idioma grande con sus propias aplicaciones específicas y extensas.
如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。
中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。
En segundo lugar, en comparación con los conjuntos de datos en inglés, hay relativamente pocos conjuntos de datos disponibles públicamente en chino.
很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
Una vez más, la comprensión del lenguaje se ha desarrollado para la etapa actual, y los modelos previamente capacitados han promovido enormemente la comprensión del lenguaje natural.
不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
Luego, si hay una prueba de referencia para tareas chinas, incluido un lote de conjuntos de datos que el público puede utilizar y evaluar ampliamente las características de las tareas chinas aplicables y mantenerse al día con el desarrollo actual de la tecnología mundial,
能缓解当前中文任务的一些问题,并促进相关应用的发展。
El punto de referencia de evaluación de comprensión del idioma para chino (chino -ver) obtuvo ideas de Glue, que es una colección de
Recursos para capacitar, evaluar y analizar los sistemas de comprensión del lenguaje natural. Chinoglue consiste en:
Un punto de referencia de varias tareas de comprensión de lenguaje de pares de oraciones o oraciones. Actualmente, los conjuntos de datos utilizados en estas tareas provienen del público. Incluiremos conjuntos de datos con pruebas privadas establecidas antes de finales de 2019.
Una tabla de clasificación pública para el seguimiento de la actuación. Podrá enviar sus archivos de predicción en estas tareas, cada tarea será evaluada y obtenida, también habrá una puntuación final disponible.
líneas de base para tareas chinas de vergüenza. Las líneas de base estarán disponibles en TensorFlow, Pytorch, Keras y Paddlepaddle.
Una gran cantidad de corpus en bruto para el propósito de investigación de modelado de idiomas o pre-entradas. Contendrá alrededor de 10 g de Corpus Raw en 2019;
En el primer medio año de 2020, incluirá al menos 30 g de corpus RAW; A finales de 2020, incluiremos suficiente corpus en bruto, como 100G, tan grande como para no necesitar más corpus sin procesar para el modelado de idiomas de propósito general. Puede usarlo para fines generales o adaptación de dominio, o incluso para generar texto. Cuando use para la adaptación de dominio, podrá seleccionar Corpus que le interese.
La entrada es de dos oraciones y la salida es 0 o 1. Donde 0 significa que la semántica no es similar, y 1 significa que la semántica es similar.
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
2.飞行员没钱买房怎么办? [分隔符] 父母没钱买房子 [分隔符] 0
Un conjunto de datos para la comprensión cruzada, dada una premisa y suposición, determina si esta suposición y premisa tienen implicaciones, oposiciones y relaciones neutrales.
数据量:训练集(392,703),验证集(2,491),测试集(5,011)
例子:
1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 [分隔符] entailment
原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词
数据量:训练集(5,356),验证集(1,000),测试集(1,000)
例子:
1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来,九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标,努力办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。目前,该市特色教育学校有70所 ......
每行为一条数据,以_!_分割的个字段,从前往后分别是情感类别,数据id,新闻标题,新闻内容
Delta Reading Comprehension DataSet (DRCD) (https://github.com/drcknowledgeteam/drcd) es un conjunto de datos tradicional de lectura y comprensión de la comprensión de la máquina tradicional de uso de la máquina y la comprensión. Se espera que este conjunto de datos sea un conjunto de datos de lectura y comprensión chino estándar adecuado para el aprendizaje de reubicación.
数据量:训练集(8,016个段落,26,936个问题),验证集(1,000个段落,3,524个问题),测试集(1,000个段落,3,493个问题)
例子:
{
"version": "1.3",
"data": [
{
"title": "基督新教",
"id": "2128",
"paragraphs": [
{
"context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司, 以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀",
"id": "2128-2",
"qas": [
{
"id": "2128-2-1",
"question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
"answers": [
{
"id": "1",
"text": "因信稱義",
"answer_start": 92
}
]
},
{
"id": "2128-2-2",
"question": "哪本經典為新教的最高權威?",
"answers": [
{
"id": "1",
"text": "聖經",
"answer_start": 105
}
]
}
]
}
]
}
]
}
El formato de datos es el mismo que el escuadrón. Si utiliza un modelo chino simplificado para la evaluación, puede convertirlo en simplificado (se ha proporcionado este proyecto)
https://hfl-rc.github.io/cmrc2018/
数据量:训练集(短文数2,403,问题数10,142),试验集(短文数256,问题数1,002),开发集(短文数848,问题数3,219)
例子:
{
"version": "1.0",
"data": [
{
"title": "傻钱策略",
"context_id": "TRIAL_0",
"context_text": "工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
"qas":[
{
"query_id": "TRIAL_0_QUERY_0",
"query_text": "什么是傻钱策略?",
"answers": [
"所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合",
"其实就是买入并持有美国股票这样的普通组合",
"买入并持有美国股票这样的普通组合"
]
},
{
"query_id": "TRIAL_0_QUERY_1",
"query_text": "12月的消费者信心指数是多少?",
"answers": [
"78.1",
"78.1",
"78.1"
]
},
{
"query_id": "TRIAL_0_QUERY_2",
"query_text": "消费者信心指数由什么机构发布?",
"answers": [
"工商协进会",
"工商协进会",
"工商协进会"
]
}
]
}
]
}
El formato de datos es el mismo que el escuadrón
Este conjunto de datos es un corpus de sistema de preguntas y respuestas automáticas, con un total de 120,000 pares de oraciones y marcado con valores de similitud de par de pares, con el valor 0 o 1 (0 significa diferente, 1 significa similar). Hay problemas como errores tipográficos y gramática irregular en los datos, pero está más cerca de los escenarios industriales.
数据量:训练集(100,000),验证集(10,000),测试集(10,000)
例子:
1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
2.为什么我的还没有额度 [分隔符] 为啥没有额度!! [分隔符] 1
Hay más de 50,000 datos de identificación y etiquetado de entidades con nombre chino (incluidos nombres de personas, nombres de lugares y nombres de organización) en este conjunto de datos, que están representados por NR, NS y NT respectivamente, y otras entidades están representadas por o.
数据量:训练集(46,364),测试集(4,365)
例子:
1.据说/o 应/o 老友/o 之/o 邀/o ,/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o
Este conjunto de datos tiene más de 40,000 datos de etiquetas de texto largas basadas en noticias chinas, con un total de 14 categorías: "deportes": 0, "Entretenimiento": 1, "Inicio": 2, "Lotería": 3, "Real Estate": 4, "Educación": 5, "Moda", 6, "Asuntos actuales": 7, "Zodiac": 8, "Juego": 9, "Sociedad": 10, "Tecnología": 11, 11, 11, 12, 12, "13.
数据量:训练集(33,437),验证集(4,180),测试集(4,180)
例子:
11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用 爱国者MP5简介: "爱国者"北京华旗资讯,作为国内知名数码产品制>造商。1993年创立于北京中关村,是一家致力于......
每行为一条数据,以_!_分割的个字段,从前往后分别是 类别ID,类别名称,文本ID,文本内容。
Hay más de 17,000 datos etiquetados por texto largo sobre las descripciones de aplicaciones de aplicaciones en este conjunto de datos, incluidos varios temas de aplicación relacionados con la vida diaria, con un total de 119 categorías: "Taxi": 0, "Navegación de mapas": 1, "wifi gratuito": 2, "alquiler de automóviles": 3, ...., "mujer": 115, "negocios": 116, "recopilación de efectivo": 117, "otros": 118 (representado (representado (representado representado)))).
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫,自由度非常高,可以做很多你想做的事情......
每行为一条数据,以_!_分割字段,从前往后分别是 类别ID,类别名称,文本内容。
https://arxiv.org/abs/1906.01265
El idioma es cloze en los espacios en blanco, y muchos modismos en el texto están enmascarados, y los candidatos contienen sinónimos.
数据量:训练集(84,709),验证集(3,218),测试集(3,231)
例子:
{
"content": [
# 文段0
"……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。",
# 文段1
"在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。",
# 文段2
"最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……",
# 文段3
"“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。",
# 文段4
"从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。",
# 文段5
"……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"],
"candidates": [
"百尺竿头",
"随波逐流",
"方兴未艾",
"身体力行",
"一日千里",
"三十而立",
"逆水行舟",
"日新月异",
"百花齐放",
"沧海一粟"
]
}
Los datos de Chinesemnli convierten los datos MNLI originales en chino e inglés. Los datos provienen de ficción, teléfono, viaje, gobierno, pizarra, etc., y se usan para juzgar la relación entre las dos oraciones dadas que son implícitas, neutrales y contradictorias.
数据量:train(391,783),matched(9336),mismatched(8,870)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}
Se agregan más conjuntos de datos, si tiene un conjunto de datos bien definido, contáctenos.
O use el comando:
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Albert-xlarge | 88.30 | 88.30 | Batch_size = 32, longitud = 128, época = 3 |
| Base | 89.80 | 89.78 | Batch_size = 32, longitud = 128, época = 3 |
| BERT-WWM-EXT-BASE | 89.88 | 89.81 | Batch_size = 32, longitud = 128, época = 3 |
| Ernie-base | 89.77 | 89.83 | Batch_size = 32, longitud = 128, época = 3 |
| Roberta-Large | 90.00 | 89.91 | Batch_size = 16, longitud = 128, época = 3 |
| XLNET-MID | 86.14 | 86.26 | Batch_size = 32, longitud = 128, época = 3 |
| Roberta-wwm-ext | 89.82 | 89.79 | Batch_size = 32, longitud = 128, época = 3 |
| Roberta-wwm-Large-ext | 90.05 | 90.11 | Batch_size = 16, longitud = 128, época = 3 |
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Albert-xlarge | 74.0? | 74.0? | Batch_size = 64, longitud = 128, época = 2 |
| Base | 77.80 | 77.80 | Batch_size = 64, longitud = 128, época = 2 |
| BERT-WWM-EXT-BASE | 79.4 | 78.7 | Batch_size = 64, longitud = 128, época = 2 |
| Ernie-base | 79.7 | 78.6 | Batch_size = 64, longitud = 128, época = 2 |
| Roberta-Large | 80.2 | 79.9 | Batch_size = 64, longitud = 128, época = 2 |
| XLNET-MID | 79.2 | 78.7 | Batch_size = 64, longitud = 128, época = 2 |
| Roberta-wwm-ext | 79.56 | 79.28 | Batch_size = 64, longitud = 128, época = 2 |
| Roberta-wwm-Large-ext | 80.20 | 80.04 | Batch_size = 16, longitud = 128, época = 2 |
Nota: Albert-Xlarge, todavía hay problemas en la capacitación en tareas XNLI.
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Albert-xlarge | 89.00 | 86.76 | Batch_size = 64, longitud = 128, época = 3 |
| Base | 89.4 | 86.9 | Batch_size = 64, longitud = 128, época = 3 |
| BERT-WWM-EXT-BASE | 89.1 | 87.3 | Batch_size = 64, longitud = 128, época = 3 |
| Ernie-base | 89.8 | 87.2 | Batch_size = 64, longitud = 128, época = 3 |
| Roberta-Large | 89.9 | 87.2 | Batch_size = 64, longitud = 128, época = 3 |
| XLNET-MID | 86.14 | 85.98 | Batch_size = 64, longitud = 128, época = 3 |
| Roberta-wwm-ext | 89.08 | 86.33 | Batch_size = 64, longitud = 128, época = 3 |
| Roberta-wwm-Large-ext | 89.79 | 86.82 | Batch_size = 16, longitud = 128, época = 3 |
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Albert-xlarge | 81.80 | 82.40 | Batch_size = 32, longitud = 512, época = 8 |
| Base | 81.29 | 82.70 | Batch_size = 16, longitud = 512, época = 3 |
| BERT-WWM-EXT-BASE | 81.93 | 83.46 | Batch_size = 16, longitud = 512, época = 3 |
| Ernie-base | 84.50 | 85.14 | Batch_size = 16, longitud = 512, época = 3 |
| Roberta-Large | 81.90 | 84.00 | Batch_size = 4, longitud = 512, época = 3 |
| XLNET-MID | 82.00 | 84.00 | Batch_size = 8, longitud = 512, época = 3 |
| Roberta-wwm-ext | 82.98 | 82.28 | Batch_size = 16, longitud = 512, época = 3 |
| Roberta-wwm-Large-ext | 83.73 | 82.78 | Batch_size = 4, longitud = 512, época = 3 |
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Base | F1: 92.30 EM: 86.60 | F1: 91.46 EM: 85.49 | lotes = 32, longitud = 512, época = 2 lr = 3e-5 calentamiento = 0.1 |
| BERT-WWM-EXT-BASE | F1: 93.27 EM: 88.00 | F1: 92.63 EM: 87.15 | lotes = 32, longitud = 512, época = 2 lr = 3e-5 calentamiento = 0.1 |
| Ernie-base | F1: 92.78 EM: 86.85 | F1: 92.01 EM: 86.03 | lotes = 32, longitud = 512, época = 2 lr = 3e-5 calentamiento = 0.1 |
| Albert-Large | F1: 93.90 EM: 88.88 | F1: 93.06 EM: 87.52 | lote = 32, longitud = 512, época = 3 LR = 2E-5 calentamiento = 0.05 |
| Albert-xlarge | F1: 94.63 EM: 89.68 | F1: 94.70 EM: 89.78 | Batch_size = 32, longitud = 512, época = 3 LR = 2.5E-5 calentamiento = 0.06 |
| Albert diminuto | F1: 81.51 EM: 71.61 | F1: 80.67 EM: 70.08 | lotes = 32, longitud = 512, época = 3 lr = 2e-4 calentamiento = 0.1 |
| Roberta-Large | F1: 94.93 EM: 90.11 | F1: 94.25 EM: 89.35 | lotes = 32, longitud = 256, época = 2 lr = 3e-5 calentamiento = 0.1 |
| XLNET-MID | F1: 92.08 EM: 84.40 | F1: 91.44 EM: 83.28 | lotes = 32, longitud = 512, época = 2 lr = 3e-5 calentamiento = 0.1 |
| Roberta-wwm-ext | F1: 94.26 EM: 89.29 | F1: 93.53 EM: 88.12 | lotes = 32, longitud = 512, época = 2 lr = 3e-5 calentamiento = 0.1 |
| Roberta-wwm-Large-ext | F1: 95.32 EM: 90.54 | F1: 95.06 EM: 90.70 | lote = 32, longitud = 512, época = 2 lr = 2.5e-5 calentamiento = 0.1 |
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Base | F1: 85.48 EM: 64.77 | F1: 87.17 EM: 69.72 | lotes = 32, longitud = 512, época = 2 lr = 3e-5 calentamiento = 0.1 |
| BERT-WWM-EXT-BASE | F1: 86.68 EM: 66.96 | F1: 88.78 EM: 73.23 | lotes = 32, longitud = 512, época = 2 lr = 3e-5 calentamiento = 0.1 |
| Ernie-base | F1: 87.30 EM: 66.89 | F1: 89.62 EM: 73.32 | lotes = 32, longitud = 512, época = 2 lr = 3e-5 calentamiento = 0.1 |
| Albert-Large | F1: 87.86 EM: 67.75 | F1: 90.17 EM: 73.66 | Epoch3, lote = 32, longitud = 512, LR = 2e-5, calentamiento = 0.05 |
| Albert-xlarge | F1: 88.66 EM: 68.90 | F1: 90.92 EM: 75.22 | Epoch3, lote = 32, longitud = 512, LR = 2e-5, calentamiento = 0.1 |
| Albert diminuto | F1: 73.95 EM: 48.31 | F1: 75.73 EM: 53.68 | Epoch3, lote = 32, longitud = 512, LR = 2e-4, calentamiento = 0.1 |
| Roberta-Large | F1: 88.61 EM: 69.94 | F1: 90.94 EM: 76.11 | Epoch2, lote = 32, longitud = 256, LR = 3e-5, calentamiento = 0.1 |
| XLNET-MID | F1: 85.63 EM: 65.31 | F1: 86.09 EM: 66.51 | Epoch2, lote = 32, longitud = 512, LR = 3e-5, calentamiento = 0.1 |
| Roberta-wwm-ext | F1: 87.28 EM: 67.89 | F1: 89.74 EM: 73.89 | Epoch2, lote = 32, longitud = 512, LR = 3e-5, calentamiento = 0.1 |
| Roberta-wwm-Large-ext | F1: 89.42 EM: 70.59 | F1: 91.56 EM: 76.58 | Epoch2, lote = 32, longitud = 512, LR = 2.5E-5, calentamiento = 0.1 |
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Base | 82.2 | 82.04 | lotes = 24, longitud = 64, época = 3 lr = 2e-5 |
| BERT-WWM-EXT-BASE | - | - | - |
| Ernie-base | - | - | - |
| Albert-Large | - | - | - |
| Albert-xlarge | - | - | - |
| Albert diminuto | - | - | - |
| Roberta-Large | 85.31 | 84.5 | lotes = 24, longitud = 64, época = 3 lr = 2e-5 |
| XLNET-MID | - | - | - |
| Roberta-wwm-ext | 83.78 | 83.62 | lotes = 24, longitud = 64, época = 3 lr = 2e-5 |
| Roberta-wwm-Large-ext | 85.81 | 85.37 | lotes = 24, longitud = 64, época = 3 lr = 2e-5 |
| Modelo | coincidente | Inyectado | Parámetros de entrenamiento |
|---|---|---|---|
| Base | 79.39 | 79.76 | lotes = 32, longitud = 128, época = 3 lr = 2e-5 |
| BERT-WWM-EXT-BASE | 81.41 | 80.67 | lotes = 32, longitud = 128, época = 3 lr = 2e-5 |
| Ernie-base | 79.65 | 80.70 | lotes = 32, longitud = 128, época = 3 lr = 2e-5 |
| Albert-xxlarge | - | - | - |
| Albert diminuto | 72.71 | 72.72 | lotes = 32, longitud = 128, época = 3 lr = 2e-5 |
| Roberta-Large | - | - | - |
| XLNET-MID | 78.15 | 76.93 | lotes = 16, longitud = 128, época = 3 lr = 2e-5 |
| Roberta-wwm-ext | 81.09 | 81.38 | lotes = 32, longitud = 128, época = 3 lr = 2e-5 |
| Roberta-wwm-Large-ext | 83.4 | 83.42 | lotes = 32, longitud = 128, época = 3 lr = 2e-5 |
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Base | 85.86 | 85.08 | Batch_size = 64, longitud = 128, época = 3 |
| BERT-WWM-EXT-BASE | 86.05 | 85.21 | Batch_size = 64, longitud = 128, época = 3 |
| Ernie-base | 85.92 | 84.47 | Batch_size = 64, longitud = 128, época = 3 |
| Roberta-Large | 85.68 | 85.20 | Batch_size = 8, longitud = 128, época = 3 |
| XLNET-MID | 79.81 | 77.85 | Batch_size = 32, longitud = 128, época = 3 |
| Albert-xlarge | 85.21 | 84.21 | Batch_size = 16, longitud = 128, época = 3 |
| Albert diminuto | 82.04 | 80.76 | Batch_size = 64, longitud = 128, época = 5 |
| Roberta-wwm-ext | 85.31 | 84.02 | Batch_size = 64, longitud = 128, época = 3 |
| Roberta-wwm-Large-ext | 86.34 | 84.90 | Batch_size = 16, longitud = 128, época = 3 |
| Modelo | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|
| Base | 95.38 | Batch_size = 16, longitud = 256, época = 5, LR = 2e-5 |
| BERT-WWM-EXT-BASE | 95.26 | Batch_size = 16, longitud = 256, época = 5, LR = 2e-5 |
| Ernie-base | 95.17 | Batch_size = 16, longitud = 256, época = 5, LR = 2e-5 |
| Roberta-Large | 96.07 | Batch_size = 8, longitud = 256, época = 5, LR = 2e-5 |
| XLNET-MID | 92.11 | Batch_size = 8, longitud = 256, época = 5, LR = 2e-5 |
| Albert-xlarge | 89.51 | Batch_size = 16, longitud = 256, época = 8, LR = 7e-5 |
| Albert-base | 92.47 | batch_size = 32, longitud = 256, época = 8, lr = 5e-5 |
| Albert diminuto | 84.77 | batch_size = 32, longitud = 256, época = 8, lr = 5e-5 |
| Roberta-wwm-ext | 95.06 | Batch_size = 16, longitud = 256, época = 5, LR = 2e-5 |
| Roberta-wwm-Large-ext | 95.32 | Batch_size = 8, longitud = 256, época = 5, LR = 2e-5 |
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Albert-xlarge | 95.74 | 95.45 | Batch_size = 32, longitud = 512, época = 8 |
| Albert diminuto | 92.63 | 93.54 | Batch_size = 64, longitud = 128, época = 5 |
| Base | 95.28 | 95.35 | Batch_size = 8, longitud = 128, época = 3 |
| BERT-WWM-EXT-BASE | 95.38 | 95.57 | Batch_size = 8, longitud = 128, época = 3 |
| Ernie-base | 94.35 | 94.90 | Batch_size = 16, longitud = 256, época = 3 |
| Roberta-Large | 94.52 | 94.56 | Batch_size = 2, longitud = 256, época = 3 |
| XLNET-MID | 94.04 | 94.54 | Batch_size = 16, longitud = 128, época = 3 |
| Roberta-wwm-ext | 95.59 | 95.52 | Batch_size = 16, longitud = 256, época = 3 |
| Roberta-wwm-Large-ext | 96.10 | 95.93 | Batch_size = 32, longitud = 512, época = 8 |
| Modelo | Conjunto de desarrollo (Dev) | Conjunto de prueba (prueba) | Parámetros de entrenamiento |
|---|---|---|---|
| Albert-xlarge | 61.94 | 61.34 | Batch_size = 32, longitud = 128, época = 3 |
| Albert diminuto | 44.83 | 44.62 | Batch_size = 32, longitud = 256, época = 3 |
| Base | 63.57 | 63.48 | Batch_size = 32, longitud = 128, época = 3 |
| BERT-WWM-EXT-BASE | 63.83 | 63.75 | Batch_size = 32, longitud = 128, época = 3 |
| Ernie-base | 61.75 | 61.80 | Batch_size = 24, longitud = 256, época = 3 |
| Roberta-Large | 63.80 | 63.91 | Batch_size = 32, longitud = 128, época = 3 |
| XLNET-MID | 60.16 | 60.04 | Batch_size = 16, longitud = 128, época = 3 |
| Roberta-wwm-ext | 64.18 | - | Batch_size = 16, longitud = 128, época = 3 |
| Roberta-wwm-Large-ext | 65.19 | 65.10 | Batch_size = 32, longitud = 128, época = 3 |
Le proporcionamos scripts que se pueden ejecutar "un solo clic" para ayudarlo a ejecutar tareas específicas más rápido en los modelos especificados.
Tomando el ejemplo de ejecutar la tarea "BQ inteligente pregunta de servicio al cliente" en el modelo BERT, puede ejecutar el script run_classifier_ bq .sh directamente bajo chinoglue/líneas de base/modelos/ bert /.
cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.shEl script descargará automáticamente el conjunto de datos "BQ Intelligent Customer Service Pregunta Match" (Guardar en chino Glue/Basline/Glue/ChineseGlueDataSets/ BQ /Carper) y el modelo BERT (guarda en ChineseGlue/Baseblue/Models/Bert/Prev_trainse_Model/).
Para obtener más detalles, consulte: Capacitación de modelos de modelo de referencia

Se puede utilizar para el modelado de idiomas, la capacitación previa o las tareas generativas, etc. El volumen de datos excede los 10 g, y la parte principal proviene del proyecto NLP_CHINESE_Corpus
El corpus actual se procesa en [formato de pre-entrenamiento] y contiene múltiples carpetas; Cada carpeta tiene muchos archivos pequeños de no más de 4 m de tamaño, y el formato de archivo cumple con el formato previo a la capacitación: una línea por oración, separada por líneas en blanco entre documentos.
Contiene el siguiente sub-Corpus (14G Corpus en total):
1. Noticias corporativas: 8G corporativo, dividido en dos partes superiores e inferiores, con un total de 2,000 archivos pequeños.
2. Community Interactive Corpus: 3G Corpus, que contiene texto 3G, con un total de más de 900 archivos pequeños.
3. Wikipedia: aproximadamente 1.1 g de texto, que contiene aproximadamente 300 archivos pequeños.
4. Datos de comentarios: alrededor de 2.3g de texto, que contiene 811 archivos pequeños, fusione múltiples datos de comentarios de Chinesenlpcorpus, limpie, convierte formatos y dividen en archivos pequeños.
Puede obtener estos corpus limpiando los datos y convirtiendo el formato a través de los dos elementos anteriores;
También puede obtener el corpus de un solo proyecto por correo electrónico (chinoglue#163.com) e informar a la unidad o escuela, nombre y propósito del corpus;
Para obtener todo el corpus bajo el Proyecto ChinoGlue, debe convertirse en miembro de la Organización Chinaglue y completar una tarea (pequeña).
1. Miembro fundador de la primera evaluación de referencia de tareas chinas de China
2. Ser capaz de contribuir junto con otros profesionales para promover el desarrollo del procesamiento de lenguaje natural chino
3. Después de participar en algún trabajo, obtenga un corpus previo a la capacitación a gran escala que haya sido limpiado y pretrensado, que es lo mismo que el Wiki & Bookcorpus inglés, con fines de investigación.
4. Se da prioridad al uso del modelo chino previamente entrenado del estado del arte, incluidas varias versiones de prueba o versiones no publicadas
Envíe un correo electrónico a CLUEBenchmark#163.com para presentarse brevemente, sus antecedentes, trabajo o dirección de investigación, su organización y dónde puede contribuir a la comunidad. Nos comunicaremos con usted después de la evaluación.
1. Conjunto de datos representativos de recopilación y mina 1, generalmente una tarea de clasificación o oración a orientación (se requieren 5 conjuntos de datos adicionales)
2. La tarea de comprensión de lectura se transforma en oraciones a tareas (como pistas y preguntas o respuestas) y se evalúa. Los datos deben dividirse en conjuntos de entrenamiento, verificación y prueba.
3. Basiliza los métodos y scripts de capacitación y predicción para modelos de tareas específicos (admite Pytorch y Keras);
4. Para los modelos convencionales actuales (como Bert/Bert_wwm_ext/Roberta/Albert/Ernie/Ernie2.0, etc.), combinado con el conjunto de datos ChineseGlue, se realiza una prueba de precisión.
Por ejemplo: XLNET-MID prueba en el conjunto de datos LCQMC
5. ¿Hay modelos que participen en la evaluación?
6. Página de destino de clasificación
7. Introducción al punto de referencia de evaluación de comprensión del idioma chino (chinoglue)
8. Desarrollo de las funciones principales del sistema de evaluación
2019-10-20 a 2019-12-31: versión beta de chinoglue
2020.1.1 a 2020-12-31: Versión oficial de chinoglue
2021.1.1 a 2021-12-31: Super versión de chinoglue
¡Comparta su conjunto de datos con la comunidad o haga una contribución hoy! Simplemente envíe un correo electrónico a chinoglue#163.com,
o unirse al grupo QQ: 836811304
Se agregan más voluntarios uno tras otro. . .
Ver: https://aclanthology.org/2020.colingmain.419.bib
1. Glue: una plataforma de referencia y análisis de varias tareas para la comprensión del lenguaje natural
2. Supergegador: un punto de referencia más pegajoso para los sistemas de comprensión del lenguaje general
3. LCQMC: un corpus de juego de pregunta china a gran escala
4. Xnli: Evaluación de representaciones de oraciones interlingües
5. TNES: Toutiao-Text-Classfication-Dataset
6. NLP_CHINESE_Corpus: Corpus chino a gran escala para NLP
7. chinesenlpcorpus
8. Albert: un Bert lite para el aprendizaje auto-supervisado de las representaciones del idioma
9. Bert: pretruamiento de transformadores bidireccionales profundos para la comprensión del lenguaje
10. Roberta: un enfoque de pre -proyenamiento de Bert optimizado robusto