Python Toolkit para o benchmark de avaliação de entendimento de idiomas chinês.
O kit de ferramentas Python para os benchmarks de avaliação de entendimento de idiomas chinês pode avaliar rapidamente os conjuntos de dados representativos e os modelos de referência (pré -treinados) e selecionar modelos de referência apropriados (pré -treinados) para seus próprios dados para aplicação rápida.
conjuntos de dados, linhas de base, modelos pré-treinados, corpus e tabela de classificação
Os benchmarks de avaliação de entendimento de idiomas chineses, incluindo conjuntos de dados representativos, modelos de referência (pré -traida), corpus e classificações.
Selecionaremos uma série de conjuntos de dados correspondentes a determinadas tarefas representativas como o conjunto de dados para o nosso benchmark de teste. Esses conjuntos de dados abrangem tarefas diferentes, volume de dados e dificuldade de tarefa.
Agora, o Pyclue pode ser instalado via PIP:
pip install --upgrade PyCLUEOu instale diretamente Pyclue by Git Clone:
pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.gitModelos de linguagem pré-treinados são suportados
Esperando pelo apoio
NOTA: O conjunto de dados é consistente com o conjunto de dados fornecido pela Cluebenchmark e é modificado apenas de acordo no formato para se adequar ao projeto Pyclue.
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。
Link: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg Código de extração: KSD1
Modelo de treinamento Localização do script: pyclue/pista/sentença_pair/afqmc/trens.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb
Enviar script de arquivo Localização: pyclue/pista/sentença_pair/afqmc/previc.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb
Esse conjunto de dados vem da seção de notícias de Toutiao, e um total de 15 categorias de notícias foram extraídas, incluindo turismo, educação, finanças, militares, etc.
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}
每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。
Link: https://pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq Código de extração: S9GO
Modelo de treinamento Localização do Script: Pyclue/Clue/Classificação/TNews/Train.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb
Enviar script de arquivo Localização: pyclue/pista/classificação/tnews/previc.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb
Existem mais de 17.000 dados rotulados por texto longo sobre as descrições de aplicativos de aplicativos nesse conjunto de dados, incluindo vários tópicos de aplicativos relacionados à vida diária, com um total de 119 categorias: "Taxi": 0, "Map Navigation": 1, "Wi-Fi gratuito": 2, "Coleta": 3, 3, ... "feminino": 115, "Business": 116, "Cash" "117, 11," 11, "115: 116," 116, "116," RESUMETATAIRATATE ":" Remert).
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。
Link: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a Código de extração: U00V
Modelo de treinamento Localização do script: pyclue/pista/classificação/iflytek/trens.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb
Enviar script de arquivo Localização: pyclue/pista/classificação/iflytek/previc.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb
Os dados do CMNLI consistem em duas partes: XNLI e MNLI. Os dados provêm de ficção, telefone, viagens, governo, ardósia, etc. Os dados originais do MNLI e XNLI foram transformados em chinês e inglês, mantendo o conjunto de treinamento original, combinando o dev no XNLI e combinado no MNLI como o devê -se do CMNLI, combinando o teste em xnl e misseli em mnli. Esse conjunto de dados pode ser usado para determinar a relação entre as duas frases que são implicações, neutros e contraditórios.
数据量:train(391,782),matched(12,426),mismatched(13,880)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,蕴含关系标签。其中label标签有三种:neutral,entailment,contradiction。
Link: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq Código de extração: Kigh
Modelo de treinamento Localização do script: pyclue/pista/sentença_pair/cmnli/train.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb
Enviar script de arquivo Localização: pyclue/pista/sentença_pair/cmnli/previc.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb
Conjuntos de diagnóstico usados para avaliar o desempenho de diferentes modelos nos fenômenos da língua chinesa resumidos por 9 linguistas.
Usando o modelo treinado no CMNLI, os resultados nesse conjunto de diagnóstico são previstos diretamente. O formato de envio é consistente com o CMNLI. Você pode ver os resultados na página de detalhes da classificação. (Nota: este conjunto de dados contém o conjunto de treinamento e o conjunto de testes de CMNLI)
Link: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw Código de extração: U194
Modelo de treinamento Localização do script: pyclue/pista/sentença_pair/diagnóstico/trem.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb
Enviar script de arquivo Localização: pyclue/pista/sentença_pair/diagnóstico/previc.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb
Suplementar.
Tarefas de multi-classificação, como classificação de texto, classificação de emoção, etc., podem aceitar dois formulários: entrada de frase única e entrada de pares de frases.
O diretório de dados deve conter pelo menos os arquivos de treinamento.txt, dev.txt e labels.txt, e os arquivos test.txt podem ser adicionados.
Salvar referência de formulário:
Entrada de frase única (correspondente a task_type = 'single' no script de avaliação): pyclue/exemplos/classificação/single_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classfation/single_data_tmand/pymplue/blob/master/examples/classification/single_data_tma
Entrada do par de frases (correspondente a task_type = 'pairs' no script de avaliação): pyclue/exemplos/classificação/pars_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classessification/pairs_tarkmark/pyclue/blob/master/examples/classedification/pairs_tarkmark/pyclue/blob/master/examples/classedification/pairs_tarkmark/pymem
Nota: t deve ser usado como separador.
Modelo de treinamento Localização do Script: Pyclue/Exemplos/Classificação/Train.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb
Local de script previsto: pyclue/exemplos/classificação/previc.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb
Sentença para tarefa (rede gêmea), como frase-tarefa semelhante, etc. Diferente do modelo de frase para entrada em tarefas multi-classificadas: frases em tarefas multi-classificação usam o formulário de splicing do tipo Bert para inserir a tarefa, enquanto essa tarefa usa a forma de uma rede dupla.
O diretório de dados deve conter pelo menos os arquivos de treinamento.txt, dev.txt e labels.txt, e os arquivos test.txt podem ser adicionados.
Salvar referência de formulário:
Digite: pyclue/exemplos/sentença_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/exambles/sentence_pair/data_templates
Nota: t deve ser usado como separador.
Modelo de treinamento Localização do script: pyclue/exemplos/sentença_pair/trem.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb
Local de script previsto: pyclue/exemplos/sentença_pair/previc.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb
Tarefas de correspondência de texto (rede dupla), como pesquisa de perguntas frequentes, pesquisa de correspondência QQ e outras tarefas, use a rede gêmea para gerar informações de incorporação para frases de entrada e use o HNSWLIB para recuperar as frases mais semelhantes.
O diretório de dados deve conter pelo menos os arquivos cache.txt, Train.txt, dev.txt e rabels.txt, e você pode adicionar arquivos test.txt.
Salvar referência de formulário:
Entrada: pyclue/exemplos/text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/exames/text_matching/data_templates
Nota: t deve ser usado como separador.
Modelo de treinamento Localização do script: pyclue/exemplos/text_matching/train.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb
Local de script previsto: pyclue/exemplos/text_matching/previc.ipynb
Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb
O arquivo do modelo contém 10 arquivos mais recentes do modelo de ponto de verificação e arquivos de modelo PB (10 arquivos de modelo de ponto de verificação que têm o melhor desempenho no conjunto de testes dev.txt).
Os arquivos indicadores (Train_Metrics.png) gerados pelo processo de treinamento são precisão, total_loss, batch_loss, precisão, recall e indicadores F1.
Se houver um arquivo de verificação test.txt e cada linha do arquivo de verificação iniciar com true_label, o indicador do melhor modelo no arquivo de verificação será impresso.
Atualizado.
Endereço oficial: https://github.com/cluebenchmark/pyclue
Endereço de depuração: https://github.com/liushaoweihua/pyclue