Download de PyCLUE - Download de código fonte PyCLUE

PyCLUE

Código-Fonte de IA

1.0.0

Baixar

Pyclue

Python Toolkit para o benchmark de avaliação de entendimento de idiomas chinês.

O kit de ferramentas Python para os benchmarks de avaliação de entendimento de idiomas chinês pode avaliar rapidamente os conjuntos de dados representativos e os modelos de referência (pré -treinados) e selecionar modelos de referência apropriados (pré -treinados) para seus próprios dados para aplicação rápida.

Sobre pista

conjuntos de dados, linhas de base, modelos pré-treinados, corpus e tabela de classificação

Os benchmarks de avaliação de entendimento de idiomas chineses, incluindo conjuntos de dados representativos, modelos de referência (pré -traida), corpus e classificações.

Selecionaremos uma série de conjuntos de dados correspondentes a determinadas tarefas representativas como o conjunto de dados para o nosso benchmark de teste. Esses conjuntos de dados abrangem tarefas diferentes, volume de dados e dificuldade de tarefa.

Instale o pyclue

Agora, o Pyclue pode ser instalado via PIP:

pip install --upgrade PyCLUE

Ou instale diretamente Pyclue by Git Clone:

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

Modelo de referência (pré -terenciado)

Modelos de linguagem pré-treinados são suportados

Bert-Zh
Bert-wwm-ext
ALBERT_XLARGE_ZH_BRIGHTMART
ALBERT_LARGE_ZH_BRIGHTMART
ALBERT_BASE_ZH_BRIGHTMART
ALBERT_BASE_EXT_ZH_BRIGHTMART
ALBERT_SMALL_ZH_BRIGHTMART
ALBERT_TINY_ZH_BRIGHTMART
ROBERTA_ZH_BRIGHTMART
ROBERTA_WWM_EXT_ZH_BRIGHTMART
ROBERTA_WWM_EXT_LARGE_ZH_BRIGHTMART

Esperando pelo apoio

Xlnet_mid
Ernie_base

Avalie rapidamente os conjuntos de dados de pista

Introdução e download do conjunto de dados

NOTA: O conjunto de dados é consistente com o conjunto de dados fornecido pela Cluebenchmark e é modificado apenas de acordo no formato para se adequar ao projeto Pyclue.

1.

Introdução de dados

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

Link: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg Código de extração: KSD1

Script de avaliação

Modelo de treinamento Localização do script: pyclue/pista/sentença_pair/afqmc/trens.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb

Enviar script de arquivo Localização: pyclue/pista/sentença_pair/afqmc/previc.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb

2. As manchetes de hoje das manchetes de hoje (texto curto) classificam classificados de texto curto para notícias

Introdução de dados

Esse conjunto de dados vem da seção de notícias de Toutiao, e um total de 15 categorias de notícias foram extraídas, incluindo turismo, educação, finanças, militares, etc.

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

Link: https://pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq Código de extração: S9GO

Script de avaliação

Modelo de treinamento Localização do Script: Pyclue/Clue/Classificação/TNews/Train.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb

Enviar script de arquivo Localização: pyclue/pista/classificação/tnews/previc.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb

3. Classificação de texto longo de Iflytek

Introdução de dados

Existem mais de 17.000 dados rotulados por texto longo sobre as descrições de aplicativos de aplicativos nesse conjunto de dados, incluindo vários tópicos de aplicativos relacionados à vida diária, com um total de 119 categorias: "Taxi": 0, "Map Navigation": 1, "Wi-Fi gratuito": 2, "Coleta": 3, 3, ... "feminino": 115, "Business": 116, "Cash" "117, 11," 11, "115: 116," 116, "116," RESUMETATAIRATATE ":" Remert).

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

Link: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a Código de extração: U00V

Revise o script

Modelo de treinamento Localização do script: pyclue/pista/classificação/iflytek/trens.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb

Enviar script de arquivo Localização: pyclue/pista/classificação/iflytek/previc.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb

4. Tarefa de raciocínio de idiomas cmnli

Introdução de dados

Os dados do CMNLI consistem em duas partes: XNLI e MNLI. Os dados provêm de ficção, telefone, viagens, governo, ardósia, etc. Os dados originais do MNLI e XNLI foram transformados em chinês e inglês, mantendo o conjunto de treinamento original, combinando o dev no XNLI e combinado no MNLI como o devê -se do CMNLI, combinando o teste em xnl e misseli em mnli. Esse conjunto de dados pode ser usado para determinar a relação entre as duas frases que são implicações, neutros e contraditórios.

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

Link: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq Código de extração: Kigh

Revise o script

Modelo de treinamento Localização do script: pyclue/pista/sentença_pair/cmnli/train.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb

Enviar script de arquivo Localização: pyclue/pista/sentença_pair/cmnli/previc.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb

5. Diagnostics Set Clue_diagnostics test_set

Introdução de dados

Conjuntos de diagnóstico usados para avaliar o desempenho de diferentes modelos nos fenômenos da língua chinesa resumidos por 9 linguistas.

Usando o modelo treinado no CMNLI, os resultados nesse conjunto de diagnóstico são previstos diretamente. O formato de envio é consistente com o CMNLI. Você pode ver os resultados na página de detalhes da classificação. (Nota: este conjunto de dados contém o conjunto de treinamento e o conjunto de testes de CMNLI)

Link: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw Código de extração: U194

Revise o script

Modelo de treinamento Localização do script: pyclue/pista/sentença_pair/diagnóstico/trem.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb

Enviar script de arquivo Localização: pyclue/pista/sentença_pair/diagnóstico/previc.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb

6. Conjuntos de dados suportados por outras pistas

Suplementar.

Aplicar -se a tarefas personalizadas

1. Classificação multi -classe

Descrição da tarefa

Tarefas de multi-classificação, como classificação de texto, classificação de emoção, etc., podem aceitar dois formulários: entrada de frase única e entrada de pares de frases.

Requisitos de dados

O diretório de dados deve conter pelo menos os arquivos de treinamento.txt, dev.txt e labels.txt, e os arquivos test.txt podem ser adicionados.

Salvar referência de formulário:

Entrada de frase única (correspondente a task_type = 'single' no script de avaliação): pyclue/exemplos/classificação/single_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classfation/single_data_tmand/pymplue/blob/master/examples/classification/single_data_tma

Entrada do par de frases (correspondente a task_type = 'pairs' no script de avaliação): pyclue/exemplos/classificação/pars_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classessification/pairs_tarkmark/pyclue/blob/master/examples/classedification/pairs_tarkmark/pyclue/blob/master/examples/classedification/pairs_tarkmark/pymem

Nota: t deve ser usado como separador.

Revise o script

Modelo de treinamento Localização do Script: Pyclue/Exemplos/Classificação/Train.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

Local de script previsto: pyclue/exemplos/classificação/previc.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb

2. Par de tarefas do par de frases (rede dupla) Par (Siamese)

Descrição da tarefa

Sentença para tarefa (rede gêmea), como frase-tarefa semelhante, etc. Diferente do modelo de frase para entrada em tarefas multi-classificadas: frases em tarefas multi-classificação usam o formulário de splicing do tipo Bert para inserir a tarefa, enquanto essa tarefa usa a forma de uma rede dupla.

Requisitos de dados

O diretório de dados deve conter pelo menos os arquivos de treinamento.txt, dev.txt e labels.txt, e os arquivos test.txt podem ser adicionados.

Salvar referência de formulário:

Digite: pyclue/exemplos/sentença_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/exambles/sentence_pair/data_templates

Nota: t deve ser usado como separador.

Revise o script

Modelo de treinamento Localização do script: pyclue/exemplos/sentença_pair/trem.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb

Local de script previsto: pyclue/exemplos/sentença_pair/previc.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb

3. Tarefa de correspondência de texto (rede dupla) correspondência de texto (Siamese)

ilustrar

Tarefas de correspondência de texto (rede dupla), como pesquisa de perguntas frequentes, pesquisa de correspondência QQ e outras tarefas, use a rede gêmea para gerar informações de incorporação para frases de entrada e use o HNSWLIB para recuperar as frases mais semelhantes.

Requisitos de dados

O diretório de dados deve conter pelo menos os arquivos cache.txt, Train.txt, dev.txt e rabels.txt, e você pode adicionar arquivos test.txt.

Salvar referência de formulário:

Entrada: pyclue/exemplos/text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/exames/text_matching/data_templates

Nota: t deve ser usado como separador.

Revise o script

Modelo de treinamento Localização do script: pyclue/exemplos/text_matching/train.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

Local de script previsto: pyclue/exemplos/text_matching/previc.ipynb

Referência: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb

O treinamento gera arquivos

1. Arquivo do modelo

O arquivo do modelo contém 10 arquivos mais recentes do modelo de ponto de verificação e arquivos de modelo PB (10 arquivos de modelo de ponto de verificação que têm o melhor desempenho no conjunto de testes dev.txt).

2. Indicadores do processo de treinamento

Os arquivos indicadores (Train_Metrics.png) gerados pelo processo de treinamento são precisão, total_loss, batch_loss, precisão, recall e indicadores F1.

3. Verifique os indicadores do processo

Se houver um arquivo de verificação test.txt e cada linha do arquivo de verificação iniciar com true_label, o indicador do melhor modelo no arquivo de verificação será impresso.

Documentação da API

Atualizado.

Outras instruções

Endereço oficial: https://github.com/cluebenchmark/pyclue

Endereço de depuração: https://github.com/liushaoweihua/pyclue

Linha do tempo

Atualizar log

2019.12.05
- A primeira versão do Pyclue é usada para avaliar rapidamente conjuntos de dados de pista (classificação de texto, frase-a tarefa);
2020.05.10
- O código é revisado e o código redundante é mesclado (versão de teste: Tensorflow 1.15.2). Para simplificar a API, o suporte à TPU é temporariamente removido em tarefas a jusante;
- Suporta multi-versão dos modelos Bert, Albert e Roberta e pode ser baixado e carregado automaticamente de acordo com o nome de idioma pré-treinado especificado;
- Suporta a classificação de texto, o emparelhamento de frases e as tarefas de correspondência de texto;
- Usado para avaliar rapidamente o conjunto de dados da pista (AFQMC/TNEWS/IFLYTEK/CMNLI) e gerar arquivos de envio aceitáveis da ClueBenchmark;
- Aplicar-se a tarefas personalizadas, gerar rápida e rapidamente o ponto de verificação e os formatos de arquivo de modelo PB que servem tensorflow que suportam implantados e podem carregar arquivos de modelo PB para previsão; Suporta a inspeção da qualidade do formato do arquivo e salva os resultados do reconhecimento de erros no diretório especificado.

Plano de atualização

2020.05 ~ 2020.08
- Suporta outras tarefas de classificação de texto, emparelhamento de frases e correspondência de texto;
- Suporta tarefas de rotulagem de sequência;
- Suporta XLNet, Ernie, Electra, etc.;
- Suporta o modelo de vetor de palavras pré-treinado (Word2vec, etc.) e suporta várias redes a jusante;
2020.08 ~ 2020.10
- Suportar tarefas de compreensão de leitura;
- Suporta TF 2.0;
2020.10 ~ 2020.12
- Conecte-se ao projeto de avaliação de modelos pequenos do NLPCC 2020 Lightlm de alto desempenho, suportando vários modelos pequenos;
- Integra o modelo Pytorch que a pista já suportou.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-07
tamanho 136.25KB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos