Download de ChineseGLUE - download do código -fonte ChineseGLUE

GHINEIRA

Referência de avaliação de entendimento de idiomas para chinês: conjuntos de dados, linhas de base, modelos pré-treinados, corpus e tabela de classificação

Os benchmarks de avaliação de entendimento de idiomas chineses, incluindo conjuntos de dados representativos, modelos de referência (pré -traida), corpus e classificações.

"Atualizado, 22 de novembro de 2019"

1) [Recomendado] Nova versão, mais sistemática, abrangente e melhor suporte técnico, migre o novo endereço : https://github.com/cluebenchmark/clue

2) A versão clássica original, focando principalmente em tarefas práticas, como classificação ou tarefas de frase para sentença, continuará sendo retida e atualizada neste projeto

Selecionaremos uma série de conjuntos de dados correspondentes a determinadas tarefas representativas como o conjunto de dados para o nosso benchmark de teste. Esses conjuntos de dados abrangem tarefas diferentes, volume de dados e dificuldade de tarefa.

Avaliação de benchmark de tarefas chinesas (chinês) -leaderboard

As listas de classificação atualizarão regularmente fontes de dados: www.cluebenchmarks.com

Tarefas de classificação (versão VO, primeira versão)

Modelo	Pontuação	parâmetro	Tnews	LCQMC	Xnli	INEWS	BQ	MSraner	THUCNEWS	iflytekdata
Bert-base	84.57	108m	89.78	86.9	77.8	82.7	85.08	95.38	95.35	63.57
Bert-wwm-ext	84.89	108m	89.81	87.3	78.7	83.46	85.21	95.26	95.57	63.83
Ernie-Base	84.63	108m	89.83	87.2	78.6	85.14	84.47	95.17	94.9	61.75
Roberta-Large	85.08	334m	89.91	87.2	79.9	84	85.2	96.07	94.56	63.8
XLNET-MID	81.07	209m	86.26	85.98	78.7	84	77.85	92.11	94.54	60.16
Albert-Xlarge	84.08	59m	88.3	86.76	74.0?	82.4	84.21	89.51	95.45	61.94
Albert Tiny	78.22	1,8m	87.1	85.4	68	81.4	80,76	84.77	93.54	44.83
Roberta-wwm-ext	84.55	108m	89.79	86.33	79.28	82.28	84.02	95.06	95.52	64.18
Roberta-Wwm-Large	85.13	330m	90.11	86.82	80.04	82.78	84.9	95.32	95.93	65.19

DRCD & CMRC2018: Compreensão de leitura extraída (F1, EM); CHID: IDIOM LEITURA MULTI-CLASSIFICATIVA (ACC); BQ: correspondência de perguntas inteligentes ao cliente (ACC); MSraner: reconhecimento de entidade de nomeação (F1); iflytek: classificação de texto longo (ACC);

A pontuação é obtida calculando as pontuações médias de 1-9 conjuntos de dados;

Tarefa de compreensão de leitura

Modelo	Pontuação	parâmetro	Drcd	CMRC2018	CHID
Bert-base	79.08	108m	85.49	69.72	82.04
Bert-wwm-ext	-	108m	87.15	73.23	-
Ernie-Base	-	108m	86.03	73.32	-
Roberta-Large	83.32	334m	89.35	76.11	84.5
XLNET-MID	-	209m	83.28	66.51	-
Albert-Xlarge	-	59m	89.78	75.22	-
Albert-xxlarge	-	-	-	-	-
Albert Tiny	-	1,8m	70.08	53.68	-
Roberta-wwm-ext	81,88	108m	88.12	73.89	83.62
Roberta-Wwm-Large	84.22	330m	90.70	76.58	85.37

Nota: Quando F1 e EM coexistem nos indicadores acima, EM é considerado o indicador final.

Visão de Posicionamento Chinesa

Para servir melhor o entendimento, as tarefas e a indústria do idioma chinês, como um suplemento à avaliação do modelo de linguagem comum, promova o desenvolvimento de modelos de idiomas chineses, melhorando a infraestrutura de compreensão do idioma chinês.

*** 2019-10-13: Adicionado um site oficial para avaliação; INEWS Baseline Model ***

Portal de avaliação

Por que precisamos de uma referência para a avaliação de compreensão de LaNague chinesa?

Por que precisamos de uma referência para tarefas chinesas?

Primeiro de tudo, o chinês é um grande idioma com suas próprias aplicações específicas e extensas.

如中文使用人数近14亿，是联合国官方语言之一，产业界有大量的的朋友在做中文的任务。
中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词(分字或词)会影响下游任务。

Em segundo lugar, em comparação com os conjuntos de dados em inglês, existem relativamente poucos conjuntos de dados publicamente disponíveis em chinês.

 很多数据集是非公开的或缺失基准测评的；多数的论文描述的模型是在英文数据集上做的测试和评估，那么对于中文效果如何？不得而知。

Novamente, o entendimento da linguagem se desenvolveu para o estágio atual e os modelos pré-treinados promoveram bastante o entendimento da linguagem natural.

 不同的预训练模型相继产生，但不少最先进(state of the art)的模型，并没有官方的中文的版本，也没有对这些预训练模型在不同任务上的公开测试，
 导致技术的发展和应用还有不少距离，或者说技术应用上的滞后。

Então, se houver um teste de referência para tarefas chinesas, incluindo um lote de conjuntos de dados que podem ser amplamente utilizados e avaliados pelo público, as características das tarefas chinesas aplicáveis e acompanham o desenvolvimento atual da tecnologia mundial,

 能缓解当前中文任务的一些问题，并促进相关应用的发展。

Teste de referência do conteúdo do sistema de conteúdo de tarefas chinesas

Referência de avaliação de entendimento de idiomas para chinês (chinês) obteve idéias da cola, que é uma coleção de

Recursos para treinamento, avaliação e análise de sistemas de entendimento de linguagem natural. Chinesegue consiste em:

1) Teste de referência de tarefas chinesas, cobrindo várias tarefas de idioma de graus variados

Uma referência de várias tarefas de compreensão de idiomas em pares de frases ou frases. Atualmente, os conjuntos de dados usados nessas tarefas são do público. Incluiremos conjuntos de dados com conjunto de testes privados antes do final de 2019.

2) Lista de classificação pública

Uma tabela de classificação pública para o desempenho do rastreamento. Você poderá enviar seus arquivos de previsão nessas tarefas, cada tarefa será avaliada e pontuada, uma pontuação final também estará disponível.

3) Modelo de linha de base, incluindo o código inicial e o modelo pré-treinado

linhas de base para tarefas chinesas. As linhas de base estarão disponíveis no Tensorflow, Pytorch, Keras e Paddlepddle.

4) Corpus para modelagem de idiomas, pré-treinamento ou tarefas generativas

Uma enorme quantidade de corpus bruto para fins de pesquisa de modelagem de idiomas ou pré-linha. Ele conterá cerca de 10g de corpus cru em 2019;

No primeiro semestre de 2020, incluirá pelo menos 30g de corpus cru; Até o final de 2020, incluiremos corpus bruto suficiente, como 100g, tão grande o suficiente para que você não precise de mais corpus cru para modelagem de linguagem de uso geral. Você pode usá -lo para propósito geral ou adaptação de domínio, ou mesmo para geração de texto. Quando você usa a adaptação do domínio, você poderá selecionar corpus em que esteja interessado.

Introdução de conjuntos de dados

1. Tarefa de similaridade semântica para LCQMC Descrições coloquiais Tarefa de similaridade semântica

A entrada é duas frases e a saída é 0 ou 1. Onde 0 significa que a semântica não é semelhante e 1 significa que a semântica é semelhante.

    数据量：训练集(238,766)，验证集(8,802)，测试集(12,500)
    例子： 
     1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
     2.飞行员没钱买房怎么办？ [分隔符] 父母没钱买房子 [分隔符] 0

2. Inferência de inferência da linguagem xnli Inferência de linguagem natural

Um conjunto de dados para o entendimento entre idiomas, dada uma premissa e suposição, determine se essa suposição e premissa têm implicações, oposições e relacionamentos neutros.

    数据量：训练集(392,703)，验证集(2,491)，测试集(5,011)
    例子： 
     1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
     2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令  [分隔符] entailment
    
    原始的XNLI覆盖15种语言（含低资源语言）。我们选取其中的中文，并将做格式转换，使得非常容易进入训练和测试阶段。

3.TNews Toutiao Chinese News (Texto curto) Classificação de texto curto Classificaiton para notícias

    数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
    例子：
    6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
    每行为一条数据，以_!_分割的个字段，从前往后分别是 新闻ID，分类code，分类名称，新闻字符串（仅含标题），新闻关键词

4. Análise de sentimentos de sentimento da Internet

    数据量：训练集(5,356)，验证集(1,000)，测试集(1,000)     
    例子：
    1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来，九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标，努力办好人民满意教育，促进了义务教育均衡发展，农村贫困地区办学条件改善。目前，该市特色教育学校有70所 ......
    每行为一条数据，以_!_分割的个字段，从前往后分别是情感类别，数据id，新闻标题，新闻内容

5.DRCD Compreensão tradicional de leitura chinesa Compreensão de leitura para chinês tradicional

Delta Reading Compreension DataSet (DRCD) (https://github.com/drcknowledgeream/drcd) é um conjunto de dados tradicional de leitura e compreensão de máquina chinesa tradicional. Espera -se que esse conjunto de dados seja um conjunto de dados de leitura e compreensão chinês padrão para a aprendizagem de realocação.

数据量：训练集(8,016个段落，26,936个问题)，验证集(1,000个段落，3,524个问题)，测试集(1,000个段落，3,493个问题)  
例子：
{
  "version": "1.3",
  "data": [
    {
      "title": "基督新教",
      "id": "2128",
      "paragraphs": [
        {
          "context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義，如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等，但有別於天主教和東正教，新教在行政上沒有單一組織架構或領導，而且在教義上強調因信稱義、信徒皆祭司， 以聖經作為最高權威，亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同，但一致認同五個唯獨：唯獨恩典：人的靈魂得拯救唯獨是神的恩典，是上帝送給人的禮物。唯獨信心：人唯獨藉信心接受神的赦罪、拯救。唯獨基督：作為人類的代罪羔羊，耶穌基督是人與上帝之間唯一的調解者。唯獨聖經：唯有聖經是信仰的終極權威。唯獨上帝的榮耀：唯獨上帝配得讚美、榮耀",
          "id": "2128-2",
          "qas": [
            {
              "id": "2128-2-1",
              "question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
              "answers": [
                {
                  "id": "1",
                  "text": "因信稱義",
                  "answer_start": 92
                }
              ]
            },
            {
              "id": "2128-2-2",
              "question": "哪本經典為新教的最高權威?",
              "answers": [
                {
                  "id": "1",
                  "text": "聖經",
                  "answer_start": 105
                }
              ]
            }
          ]
        }
      ]
    }
  ]
}

O formato de dados é o mesmo que o esquadrão. Se você usar um modelo chinês simplificado para avaliação, pode transformá -lo em simplificado (este projeto foi fornecido)

6.CMRC2018 Compreensão de leitura para chinês simplificado

https://hfl-rc.github.io/cmrc2018/

数据量：训练集(短文数2,403，问题数10,142)，试验集(短文数256，问题数1,002)，开发集(短文数848，问题数3,219)  
例子：
{
  "version": "1.0",
  "data": [
    {
        "title": "傻钱策略",
        "context_id": "TRIAL_0",
        "context_text": "工商协进会报告，12月消费者信心上升到78.1，明显高于11月的72。另据《华尔街日报》报道，2013年是1995年以来美国股市表现最好的一年。这一年里，投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略，其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
        "qas":[
                {
                "query_id": "TRIAL_0_QUERY_0",
                "query_text": "什么是傻钱策略？",
                "answers": [
                     "所谓的“傻钱”策略，其实就是买入并持有美国股票这样的普通组合",
                     "其实就是买入并持有美国股票这样的普通组合",
                     "买入并持有美国股票这样的普通组合"
                    ]
                },
                {
                "query_id": "TRIAL_0_QUERY_1",
                "query_text": "12月的消费者信心指数是多少？",
                "answers": [
                    "78.1",
                    "78.1",
                    "78.1"
                    ]
                },
                {
                "query_id": "TRIAL_0_QUERY_2",
                "query_text": "消费者信心指数由什么机构发布？",
                "answers": [
                    "工商协进会",
                    "工商协进会",
                    "工商协进会"
                    ]
                }
            ]
        }
    ]
}

O formato de dados é o mesmo que o esquadrão

7. BQ Intelligent Atendimento ao cliente Combinação para atendimento ao cliente

Este conjunto de dados é um corpus automático de perguntas e respostas, com um total de 120.000 pares de frases e marcado com valores de similaridade dos pares de sentenças, com o valor 0 ou 1 (0 significa diferente, 1 significa semelhante). Existem problemas como erros de digitação e gramática irregular nos dados, mas estão mais próximos dos cenários industriais.

    数据量：训练集(100,000)，验证集(10,000)，测试集(10,000)
    例子： 
     1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
     2.为什么我的还没有额度 [分隔符] 为啥没有额度！！ [分隔符] 1

8. Reconhecimento de entidade do nome do msraner

Existem mais de 50.000 chinês de identificação e rotulagem de entidade (incluindo nomes de pessoas, nomes de lugares e nomes de organizações) nesse conjunto de dados, que são representados por NR, NS e NT, respectivamente, e outras entidades são representadas por O.

    数据量：训练集(46,364)，测试集(4,365)
    例子： 
     1.据说/o 应/o 老友/o 之/o 邀/o ，/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
     2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o

9.

This data set has more than 40,000 Chinese news-based long text label data, with a total of 14 categories: "Sports":0, "Entertainment":1, "Home":2, "Lottery":3, "Real Estate":4, "Education":5, "Fashion":6, "Current Affairs":7, "Zodiac":8, "Game":9, "Society":10, "Technology":11, "Stock":12, "Financial":13.

    数据量：训练集(33,437)，验证集(4,180)，测试集(4,180)
    例子： 
 11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用　　爱国者MP5简介:　　"爱国者"北京华旗资讯，作为国内知名数码产品制>造商。1993年创立于北京中关村，是一家致力于......
 每行为一条数据，以_!_分割的个字段，从前往后分别是 类别ID，类别名称，文本ID，文本内容。

10.Flytek Long Text Classification

Existem mais de 17.000 dados rotulados por texto longo sobre as descrições de aplicativos de aplicativos nesse conjunto de dados, incluindo vários tópicos de aplicativos relacionados à vida diária, com um total de 119 categorias: "Taxi": 0, "Map Navigation": 1, "Wi-Fi gratuito": 2, "Coleta": 3, 3, ... "feminino": 115, "Business": 116, "Cash" "117, 11," 11, "115: 116," 116, "116," RESUMETATAIRATATE ":" Remert).

    数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
    例子： 
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫，自由度非常高，可以做很多你想做的事情......
每行为一条数据，以_!_分割字段，从前往后分别是 类别ID，类别名称，文本内容。

11.CHID IDIOM LEITURA COMPREENSÃO DE CONFIGURA O DATASET IDIOM CHINEIRO DA BLAPE

https://arxiv.org/abs/1906.01265
O idioma está cloze nos espaços em branco e muitos idiomas no texto são mascarados e os candidatos contêm sinônimos.

    数据量：训练集(84,709)，验证集(3,218)，测试集(3,231)
    例子：
    {
      "content": [
        # 文段0
        "……在热火22年的历史中，他们已经100次让对手得分在80以下，他们在这100次中都取得了胜利，今天他们希望能#idiom000378#再进一步。", 
        # 文段1
        "在轻舟发展过程之中，是和业内众多企业那样走相似的发展模式，去#idiom000379#？还是迎难而上，另走一条与众不同之路。诚然，#idiom000380#远比随大流更辛苦，更磨难，更充满风险。但是有一条道理却是显而易见的：那就是水往低处流，随波逐流，永远都只会越走越低。只有创新，只有发展科技，才能强大自己。", 
        # 文段2
        "最近十年间，虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言：到2050年，基于网络的虚拟货币将在某种程度上得到官方承认，成为能够流通的货币。现在看来，这一断言似乎还嫌过于保守……", 
        # 文段3
        "“平时很少能看到这么多老照片，这次图片展把新旧照片对比展示，令人印象深刻。”现场一位参观者对笔者表示，大多数生活在北京的人都能感受到这个城市#idiom000382#的变化，但很少有人能具体说出这些变化，这次的图片展按照区域发展划分，展示了丰富的信息，让人形象感受到了60年来北京的变化和发展。", 
        # 文段4
        "从今天大盘的走势看，市场的热点在反复的炒作之中，概念股的炒作#idiom000383#，权重股走势较为稳健，大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市，大盘今日蓄势震荡后，明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。", 
        # 文段5
        "……其中，更有某纸媒借尤小刚之口指出“根据广电总局的这项要求，2009年的荧屏将很难出现#idiom000384#的情况，很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出，只能等到2010年了……"],
      "candidates": [
        "百尺竿头", 
        "随波逐流", 
        "方兴未艾", 
        "身体力行", 
        "一日千里", 
        "三十而立", 
        "逆水行舟", 
        "日新月异", 
        "百花齐放", 
        "沧海一粟"
      ]
    }

12.CMNLI INFERÊNCIA DE INFERÊNCIA

Os dados chinesenli convertem os dados originais do MNLI em chinês e inglês. Os dados provêm de ficção, telefone, viagem, governo, slate etc., e são usados para julgar a relação entre as duas frases que são implícitas, neutras e contraditórias.

    数据量：train(391,783)，matched(9336)，mismatched(8,870)
    例子：
    {"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}

13. Mais conjuntos de dados estão sendo adicionados, chegando em breve!

Mais conjuntos de dados estão sendo adicionados, se você tiver um conjunto de dados bem definido, entre em contato conosco.

Download de conjunto de dados download geral

Ou use o comando:

 wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

Avaliação de benchmark de tarefas chinesas (Chinese Glue) - Classificação - Comparação de cada avaliação de tarefas do conjunto de dados para diferentes modelos

TNews Classificaito de texto curto para notícias (precisão):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Albert-Xlarge	88.30	88.30	batch_size = 32, comprimento = 128, época = 3
Bert-base	89.80	89.78	batch_size = 32, comprimento = 128, época = 3
Bert-Wwm-Ext-Base	89.88	89.81	batch_size = 32, comprimento = 128, época = 3
Ernie-Base	89.77	89.83	batch_size = 32, comprimento = 128, época = 3
Roberta-Large	90,00	89.91	batch_size = 16, comprimento = 128, época = 3
XLNET-MID	86.14	86.26	batch_size = 32, comprimento = 128, época = 3
Roberta-wwm-ext	89.82	89.79	batch_size = 32, comprimento = 128, época = 3
Roberta-Wwm-Large-EXT	90.05	90.11	batch_size = 16, comprimento = 128, época = 3

Xnli Inferência de linguagem natural (precisão):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Albert-Xlarge	74.0?	74.0?	batch_size = 64, comprimento = 128, época = 2
Bert-base	77.80	77.80	batch_size = 64, comprimento = 128, época = 2
Bert-Wwm-Ext-Base	79.4	78.7	batch_size = 64, comprimento = 128, época = 2
Ernie-Base	79.7	78.6	batch_size = 64, comprimento = 128, época = 2
Roberta-Large	80.2	79.9	batch_size = 64, comprimento = 128, época = 2
XLNET-MID	79.2	78.7	batch_size = 64, comprimento = 128, época = 2
Roberta-wwm-ext	79.56	79.28	batch_size = 64, comprimento = 128, época = 2
Roberta-Wwm-Large-EXT	80.20	80.04	batch_size = 16, comprimento = 128, época = 2

Nota: Albert-Xlarge, ainda existem problemas no treinamento em tarefas XNLI.

Tarefa de similaridade semântica (precisão):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Albert-Xlarge	89,00	86.76	batch_size = 64, comprimento = 128, época = 3
Bert-base	89.4	86.9	batch_size = 64, comprimento = 128, época = 3
Bert-Wwm-Ext-Base	89.1	87.3	batch_size = 64, comprimento = 128, época = 3
Ernie-Base	89.8	87.2	batch_size = 64, comprimento = 128, época = 3
Roberta-Large	89.9	87.2	batch_size = 64, comprimento = 128, época = 3
XLNET-MID	86.14	85.98	batch_size = 64, comprimento = 128, época = 3
Roberta-wwm-ext	89.08	86.33	batch_size = 64, comprimento = 128, época = 3
Roberta-Wwm-Large-EXT	89.79	86.82	batch_size = 16, comprimento = 128, época = 3

Análise de sentimentos da INEWS para notícias da Internet (precisão):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Albert-Xlarge	81,80	82.40	batch_size = 32, comprimento = 512, época = 8
Bert-base	81.29	82.70	batch_size = 16, comprimento = 512, época = 3
Bert-Wwm-Ext-Base	81.93	83.46	batch_size = 16, comprimento = 512, época = 3
Ernie-Base	84.50	85.14	batch_size = 16, comprimento = 512, época = 3
Roberta-Large	81.90	84,00	batch_size = 4, comprimento = 512, época = 3
XLNET-MID	82.00	84,00	batch_size = 8, comprimento = 512, época = 3
Roberta-wwm-ext	82.98	82.28	batch_size = 16, comprimento = 512, época = 3
Roberta-Wwm-Large-EXT	83.73	82.78	batch_size = 4, comprimento = 512, época = 3

Compreensão de leitura do DRCD para chinês tradicional (F1, EM):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Bert-base	F1: 92.30 Em: 86.60	F1: 91.46 em: 85.49	Lotes = 32, comprimento = 512, época = 2 LR = 3E-5 Warmup = 0,1
Bert-Wwm-Ext-Base	F1: 93.27 em: 88,00	F1: 92.63 em: 87.15	Lotes = 32, comprimento = 512, época = 2 LR = 3E-5 Warmup = 0,1
Ernie-Base	F1: 92.78 em: 86,85	F1: 92.01 em: 86.03	Lotes = 32, comprimento = 512, época = 2 LR = 3E-5 Warmup = 0,1
Albert-Large	F1: 93.90 em: 88,88	F1: 93.06 em: 87.52	Lotes = 32, comprimento = 512, época = 3 LR = 2E-5 Warmup = 0,05
Albert-Xlarge	F1: 94.63 em: 89.68	F1: 94.70 em: 89.78	batch_size = 32, comprimento = 512, época = 3 lr = 2,5e-5 aquecimento = 0,06
Albert Tiny	F1: 81.51 em: 71.61	F1: 80.67 em: 70.08	Lotes = 32, comprimento = 512, época = 3 LR = 2E-4 Warmup = 0,1
Roberta-Large	F1: 94.93 em: 90.11	F1: 94,25 em: 89.35	Lote = 32, comprimento = 256, época = 2 LR = 3E-5 Warmup = 0,1
XLNET-MID	F1: 92.08 em: 84.40	F1: 91.44 em: 83.28	Lotes = 32, comprimento = 512, época = 2 LR = 3E-5 Warmup = 0,1
Roberta-wwm-ext	F1: 94.26 em: 89.29	F1: 93.53 em: 88.12	Lotes = 32, comprimento = 512, época = 2 LR = 3E-5 Warmup = 0,1
Roberta-Wwm-Large-EXT	F1: 95.32 Em: 90.54	F1: 95.06 em: 90.70	Lotes = 32, comprimento = 512, época = 2 lr = 2,5e-5 warmup = 0,1

CMRC2018 LEITURA COMPREENSÃO DE LEITURA DE LEITURA PARA CHINEIRA MELIMIFICADA (F1, EM):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Bert-base	F1: 85.48 em: 64.77	F1: 87.17 em: 69.72	Lotes = 32, comprimento = 512, época = 2 LR = 3E-5 Warmup = 0,1
Bert-Wwm-Ext-Base	F1: 86.68 em: 66.96	F1: 88.78 em: 73.23	Lotes = 32, comprimento = 512, época = 2 LR = 3E-5 Warmup = 0,1
Ernie-Base	F1: 87.30 Em: 66,89	F1: 89.62 em: 73.32	Lotes = 32, comprimento = 512, época = 2 LR = 3E-5 Warmup = 0,1
Albert-Large	F1: 87,86 em: 67.75	F1: 90.17 em: 73.66	Epoch3, lote = 32, comprimento = 512, lr = 2e-5, aquecimento = 0,05
Albert-Xlarge	F1: 88.66 em: 68.90	F1: 90.92 em: 75.22	Epoch3, lote = 32, comprimento = 512, lr = 2e-5, aquecimento = 0,1
Albert Tiny	F1: 73.95 em: 48.31	F1: 75.73 Em: 53.68	Epoch3, lote = 32, comprimento = 512, lr = 2e-4, aquecimento = 0,1
Roberta-Large	F1: 88.61 em: 69.94	F1: 90.94 em: 76.11	Epoch2, lote = 32, comprimento = 256, lr = 3e-5, aquecimento = 0,1
XLNET-MID	F1: 85.63 Em: 65.31	F1: 86.09 em: 66.51	Epoch2, lote = 32, comprimento = 512, LR = 3E-5, Warmup = 0,1
Roberta-wwm-ext	F1: 87.28 em: 67,89	F1: 89.74 em: 73.89	Epoch2, lote = 32, comprimento = 512, LR = 3E-5, Warmup = 0,1
Roberta-Wwm-Large-EXT	F1: 89.42 Em: 70.59	F1: 91.56 em: 76.58	Epoch2, lote = 32, comprimento = 512, lr = 2,5e-5, aquecimento = 0,1

Idiom Leitura de Idiom Preencher o conjunto de dados de idioma chinês em branco para teste de cloze (precisão):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Bert-base	82.2	82.04	lote = 24, comprimento = 64, época = 3 lr = 2e-5
Bert-Wwm-Ext-Base	-	-	-
Ernie-Base	-	-	-
Albert-Large	-	-	-
Albert-Xlarge	-	-	-
Albert Tiny	-	-	-
Roberta-Large	85.31	84.5	lote = 24, comprimento = 64, época = 3 lr = 2e-5
XLNET-MID	-	-	-
Roberta-wwm-ext	83.78	83.62	lote = 24, comprimento = 64, época = 3 lr = 2e-5
Roberta-Wwm-Large-EXT	85.81	85.37	lote = 24, comprimento = 64, época = 3 lr = 2e-5

CMNLI Inferência de linguagem natural chinesa NLI de vários gêneros chineses (precisão):

Modelo	combinado	Missatched	Parâmetros de treinamento
Bert-base	79.39	79.76	lote = 32, comprimento = 128, época = 3 LR = 2E-5
Bert-Wwm-Ext-Base	81.41	80.67	lote = 32, comprimento = 128, época = 3 LR = 2E-5
Ernie-Base	79.65	80,70	lote = 32, comprimento = 128, época = 3 LR = 2E-5
Albert-xxlarge	-	-	-
Albert Tiny	72.71	72.72	lote = 32, comprimento = 128, época = 3 LR = 2E-5
Roberta-Large	-	-	-
XLNET-MID	78.15	76.93	lote = 16, comprimento = 128, época = 3 LR = 2E-5
Roberta-wwm-ext	81.09	81.38	lote = 32, comprimento = 128, época = 3 LR = 2E-5
Roberta-Wwm-Large-EXT	83.4	83.42	lote = 32, comprimento = 128, época = 3 LR = 2E-5

BQ Intelligent Atendimento ao cliente Pergunta correspondência para atendimento ao cliente (precisão):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Bert-base	85.86	85.08	batch_size = 64, comprimento = 128, época = 3
Bert-Wwm-Ext-Base	86.05	85.21	batch_size = 64, comprimento = 128, época = 3
Ernie-Base	85.92	84.47	batch_size = 64, comprimento = 128, época = 3
Roberta-Large	85.68	85.20	batch_size = 8, comprimento = 128, época = 3
XLNET-MID	79.81	77.85	batch_size = 32, comprimento = 128, época = 3
Albert-Xlarge	85.21	84.21	batch_size = 16, comprimento = 128, época = 3
Albert Tiny	82.04	80,76	batch_size = 64, comprimento = 128, época = 5
Roberta-wwm-ext	85.31	84.02	batch_size = 64, comprimento = 128, época = 3
Roberta-Wwm-Large-EXT	86.34	84.90	batch_size = 16, comprimento = 128, época = 3

Reconhecimento de entidade de nomes do msraner (F1):

Modelo	Conjunto de testes (teste)	Parâmetros de treinamento
Bert-base	95.38	batch_size = 16, comprimento = 256, epoch = 5, lr = 2e-5
Bert-Wwm-Ext-Base	95.26	batch_size = 16, comprimento = 256, epoch = 5, lr = 2e-5
Ernie-Base	95.17	batch_size = 16, comprimento = 256, epoch = 5, lr = 2e-5
Roberta-Large	96.07	batch_size = 8, comprimento = 256, época = 5, lr = 2e-5
XLNET-MID	92.11	batch_size = 8, comprimento = 256, época = 5, lr = 2e-5
Albert-Xlarge	89.51	batch_size = 16, comprimento = 256, época = 8, lr = 7e-5
Albert-Base	92.47	batch_size = 32, comprimento = 256, época = 8, lr = 5e-5
Albert Tiny	84.77	batch_size = 32, comprimento = 256, época = 8, lr = 5e-5
Roberta-wwm-ext	95.06	batch_size = 16, comprimento = 256, epoch = 5, lr = 2e-5
Roberta-Wwm-Large-EXT	95.32	batch_size = 8, comprimento = 256, época = 5, lr = 2e-5

THUCNEWS Classificação de texto longo (precisão):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Albert-Xlarge	95.74	95.45	batch_size = 32, comprimento = 512, época = 8
Albert Tiny	92.63	93.54	batch_size = 64, comprimento = 128, época = 5
Bert-base	95.28	95.35	batch_size = 8, comprimento = 128, época = 3
Bert-Wwm-Ext-Base	95.38	95.57	batch_size = 8, comprimento = 128, época = 3
Ernie-Base	94.35	94.90	batch_size = 16, comprimento = 256, época = 3
Roberta-Large	94.52	94.56	batch_size = 2, comprimento = 256, época = 3
XLNET-MID	94.04	94.54	batch_size = 16, comprimento = 128, época = 3
Roberta-wwm-ext	95.59	95.52	batch_size = 16, comprimento = 256, época = 3
Roberta-Wwm-Large-EXT	96.10	95.93	batch_size = 32, comprimento = 512, época = 8

Iflytekdata Classificação de texto longo (precisão):

Modelo	Conjunto de Desenvolvimento (Dev)	Conjunto de testes (teste)	Parâmetros de treinamento
Albert-Xlarge	61.94	61.34	batch_size = 32, comprimento = 128, época = 3
Albert Tiny	44.83	44.62	batch_size = 32, comprimento = 256, época = 3
Bert-base	63.57	63.48	batch_size = 32, comprimento = 128, época = 3
Bert-Wwm-Ext-Base	63.83	63.75	batch_size = 32, comprimento = 128, época = 3
Ernie-Base	61.75	61.80	batch_size = 24, comprimento = 256, época = 3
Roberta-Large	63.80	63.91	batch_size = 32, comprimento = 128, época = 3
XLNET-MID	60.16	60.04	batch_size = 16, comprimento = 128, época = 3
Roberta-wwm-ext	64.18	-	batch_size = 16, comprimento = 128, época = 3
Roberta-Wwm-Large-EXT	65.19	65.10	batch_size = 32, comprimento = 128, época = 3

Modelo de linha de base - Código de código de código para linhas de base

Fornecemos scripts que podem ser executados "com um clique" para ajudá-lo a executar tarefas específicas mais rapidamente nos modelos especificados.

Tomando o exemplo de execução da tarefa "BQ Intelligent Atendimento ao cliente correspondente" no modelo BERT, você pode executar o script run_classifier_ bq .sh diretamente em Chineseclue/Baselines/Models/ bert /.

 cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.sh

O script baixará automaticamente o conjunto de dados "BQ Intelligent Atendimento ao cliente" (Salvar em linhas de gama Chinese/Basel/cola/Chineseguedatasets/ BQ /Pasta) e o modelo BERT (Salvar em linhas de base Chinese/Basel/BERT/prev_trated_model/).

Para detalhes, consulte: Treinamento de modelo-modelo de benchmark

Portal de envio de avaliação aberto: quero enviar

Corpus para modelagem de Langauge, pré-treinamento, geração de tarefas

Pode ser usado para modelagem de idiomas, tarefas pré-treinamento ou generativas, etc. O volume de dados excede 10G, e a parte principal vem do projeto NLP_CHINESE_CORPUS

O corpus atual é processado em [formato de pré-treinamento] e contém várias pastas; Cada pasta possui muitos arquivos pequenos não mais que 4m de tamanho, e o formato de arquivo atende ao formato de pré-treinamento: uma linha por frase, separada por linhas em branco entre os documentos.

Contém o seguinte sub-corpus (14G corpus no total):

1. Notícias corporativas: 8G corporativo, dividido em duas partes superior e inferior, com um total de 2.000 arquivos pequenos.

2. Corpus interativo comunitário: corpus 3G, contendo texto 3G, com um total de mais de 900 arquivos pequenos.

3. Wikipedia: cerca de 1,1g de texto, contendo cerca de 300 arquivos pequenos.

4. Dados de comentários: cerca de 2.3g de texto, contendo 811 arquivos pequenos, mescla vários dados de comentários de chinesenlpcorpus, limpe, convertem formatos e divididos em arquivos pequenos.

Você pode obter esses corpus limpando os dados e convertendo o formato através dos dois itens acima;

Você também pode obter o corpus de um único projeto por e -mail (Chinese#163.com) e informar a unidade ou escola, nome e objetivo do corpus;

Para obter todo o corpus sob o projeto chinês, você deve se tornar um membro da organização chinesa e concluir uma (pequena) tarefa.

Torne -se um membro fundador da Organização Chinesa

Você será capaz de benefícios:

1. Membro fundador da primeira avaliação de benchmark de tarefas chinesas da China

2. Seja capaz de contribuir com outros profissionais para promover o desenvolvimento do processamento de linguagem natural chinês

3. Depois de participar de algum trabalho, obtenha um corpus de pré-treinamento em larga escala que foi limpo e pré-treinado, o mesmo que o Wiki & Bookcorpus inglês, para fins de pesquisa.

4. É dada prioridade ao uso do modelo pré-treinado chinês do estado da arte, incluindo várias versões de avaliação ou versões não publicadas

Como se juntar a nós:

Envie um email para a Cluebenchmark#163.com para apresentar brevemente a si mesmo, seu histórico, direção de trabalho ou pesquisa, sua organização e onde você pode contribuir para a comunidade. Entraremos em contato com você após a avaliação.

Lista de tarefas

1. Colete e Mina 1 Conjunto de dados representativos, geralmente uma tarefa de classificação ou frase para sentença (são necessários 5 conjuntos de dados adicionais)

2. A tarefa de compreensão de leitura é transformada em frases em tarefas (como pistas e perguntas ou respostas) e avaliada. Os dados devem ser divididos em conjuntos de treinamento, verificação e teste.

3. Métodos e scripts de treinamento e previsão de Baselises para modelos de tarefas específicos (suporta Pytorch e Keras);

4. Para modelos mainstream atuais (como Bert/Bert_wwm_ext/Roberta/Albert/Ernie/Ernie2.0, etc.), combinados com o conjunto de dados da GHINESS, o teste de precisão é realizado.

Por exemplo: XLNET-MID Testes no conjunto de dados LCQMC

5. Existem modelos participando da avaliação?

outro

6. Página de destino classificada

7. Introdução à referência da avaliação de Entendendo o idioma chinês (Chinese Glue)

8. Desenvolvimento das principais funções do sistema de avaliação

Plano de tempo da linha do tempo:

2019-10-20 a 2019-12-31: versão beta do chinês

2020.1.1 a 2020-12-31: versão oficial do chinês

2021.1.1 a 2021-12-31: Super versão do chinês

Contribuição contribua com sua força, começando hoje

Compartilhe seu conjunto de dados com a comunidade ou faça uma contribuição hoje! Basta enviar e -mail para chinês#163.com,

ou junte -se ao QQ Group: 836811304

Mais voluntários estão sendo adicionados um após o outro. . .

Pesquisas suportadas com TPUs em nuvem da Cloud de pesquisa TensorFlow do Google (TFRC)

Como nos citar?

Veja: https://aclanthology.org/2020.coling-main.419.bib

Referência:

1. Cola: uma referência de várias tarefas e plataforma de análise para compreensão da linguagem natural

2. Supercola: uma referência mais pegajosa para sistemas de compreensão de idiomas de uso geral

5. TNES: Toutiao-Text-Classfication-Dataset

6. NLP_CHINESE_CORPUS: Corpus chinês em grande escala para PNL

7. Chinesenlpcorpus

8. Albert: Um Lite Bert para o aprendizado auto-supervisionado de representações de idiomas

9. Bert: pré-treinamento de transformadores bidirecionais profundos para entendimento de idiomas

10. Roberta: Uma abordagem de pré -treinamento de Bert robustamente otimizada

Expandir