Download PERT - Download do código -fonte PERT

PERT

Outro código-fonte

1.0.0

Baixar

Chinês | Inglês

No campo do processamento de linguagem natural, os modelos de idiomas pré-treinados (PLMs) se tornaram uma tecnologia básica muito importante. Nos últimos dois anos, o Laboratório Conjunto de Iflytek divulgou uma variedade de recursos de modelo de pré-treinamento chinês e ferramentas de suporte relacionadas. Como continuação do trabalho relacionado, neste projeto, propomos um modelo pré-treinado (PERT) com base no modelo de idioma fora de ordem que aprendemos auto-supervisionado de informações semânticas de texto sem introduzir a marca de máscara [máscara]. A PERT alcançou melhorias de desempenho em algumas tarefas da NLU chinesa e inglesa, mas também possui maus resultados em algumas tarefas. Por favor, use -o conforme apropriado. Atualmente, os modelos PERT são fornecidos em chinês e inglês, incluindo dois tamanhos de modelo (base, grande).

Pert: Bert pré-treinamento com modelo de linguagem permutada
Yiming cui, ziqing yang, ting liu

Veja mais recursos divulgados pela IFL do Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology

notícias

2023/3/28 Llama chinesa de código aberto e modelo Alpaca, que pode ser rapidamente implantado e experimentado no PC, View: https://github.com/ymcui/chinese-llama-alpaca

2022/10/29 Propomos um modelo pré-treinado Lert que integra informações linguísticas. View: https://github.com/ymcui/lert

2022/5/7 Atualizou uma compreensão especial de leitura, com sintonia finamente sintonizada em vários conjuntos de dados de compreensão de leitura e forneceu uma demonstração interativa de Huggingface Online, check: download do modelo

2022/3/15 O relatório técnico foi divulgado, consulte: https://arxiv.org/abs/2203.06906

2022/2/24 PERC-BASE e Pert-Garge em chinês e inglês foram divulgados. Você pode carregar diretamente usando a estrutura BERT e executar tarefas a jusante de ajuste fino. O relatório técnico será emitido após a conclusão, e espera-se que o tempo seja em meados de março. Obrigado por sua paciência.

2022/2/17 Obrigado pela sua atenção a este projeto. Espera -se que o modelo seja emitido na próxima semana e o relatório técnico será emitido após a melhoria.

Orientação de conteúdo

capítulo	descrever
Introdução	O princípio básico do modelo pré-treinado de TET
Download do modelo	Download Endereço do modelo pré-treinado Pert
Carregamento rápido	Como usar transformadores carregar modelos rapidamente
Efeitos da linha de base do sistema	Efeitos do sistema de linha de base em algumas tarefas da NLU chinesa e inglesa
Perguntas frequentes	Perguntas frequentes e respostas
Citar	Relatório técnico deste projeto

Introdução

O aprendizado de modelos pré -rastreados para o entendimento da linguagem natural (NLU) é dividido aproximadamente em duas categorias: usando e não usando texto de entrada com marcação de máscara [máscara].

Algoritmo inspirado: um certo grau de texto fora de ordem não afeta a compreensão. Então, podemos aprender conhecimento semântico de textos fora da ordem?

Idéia geral: o PERT executa uma certa troca de ordem de palavras no texto de entrada original, formando assim o texto fora de ordem (para que não sejam introduzidas tags adicionais [máscara]). O objetivo de aprendizado do PERT é prever a localização do token original, consulte o exemplo a seguir.

ilustrar	Digite o texto	Alvo de saída
Texto original	Pesquisas mostram que a ordem desta frase não afeta a leitura.	-
Palavra da palavra particípio	Pesquisas mostram que a ordem desta frase não afeta a leitura.	-
Bert	Pesquisas mostram que essa frase [máscara] não soa como leitura.	Posição 7 → Posição do telefone 10 → Posição da sequência 13 → Shadow
Pert	A ordem desta frase não afeta a leitura .	Posição 2 (estreita) → Posição 3 (Tabela) Posição 3 (Tabela) → Posição 2 (estreita) Posição 13 (ressonante) → Posição 14 (sombra) Posição 14 (filme) → Posição 13 (ressonante)

A seguir, a estrutura básica e o formato de entrada e saída do modelo PERT no estágio de pré-treinamento (Nota: As imagens no relatório técnico do ARXIV estão atualmente incorretas, consulte as figuras a seguir. Na próxima vez que o documento for atualizado, ele será substituído pela imagem correta.).

pert

Download do modelo

Endereço de download original

Aqui, fornecemos principalmente os pesos do modelo do Tensorflow versão 1.15. Se você precisar de uma versão pytorch ou tensorflow2 do modelo, consulte a próxima seção.

A versão de código aberto contém apenas os pesos da parte do transformador, que podem ser usados diretamente para o ajuste fino da tarefa a jusante ou os pesos iniciais do pré-treinamento secundário de outros modelos pré-treinados. Para mais informações, consulte as perguntas frequentes.

PERT-large : parâmetros de 24 camadas, 1024 ocultos, 16 cabeças, 330m
PERT-base 12 camadas, 768 parâmetros de 12 cabeças, 110m

Abreviação de modelo	Linguagem	Materiais	Download do Google	Download do disco Baidu
Chinês-Pert-Large	chinês	Dados ext ^[1]	Tensorflow	Tensorflow (senha: E9HS)
Base Chinesa-Pert	chinês	Dados ext ^[1]	Tensorflow	Tensorflow (senha: RCSW)
Inglês-pert-grande (não baseado)	Inglês	Wikibooks ^[2]	Tensorflow	Tensorflow (senha: WXWI)
Inglês-Pert-Base (não baseado)	Inglês	Wikibooks ^[2]	Tensorflow	Tensorflow (senha: 8JGQ)

[1] Os dados EXT incluem: Wikipedia chinesa, outras enciclopédias, notícias, perguntas e respostas e outros dados, com um número total de palavras atingindo 5,4b, ocupando cerca de 20g de espaço em disco, o mesmo que Macbert.
[2] Wikipedia + Bookcorpus

Tomando a versão Tensorflow do Chinese-PERT-base como exemplo, após o download, descompacte o arquivo zip para obter:

 chinese_pert_base_L-12_H-768_A-12.zip
    |- pert_model.ckpt      # 模型权重
    |- pert_model.meta      # 模型meta信息
    |- pert_model.index     # 模型index信息
    |- pert_config.json     # 模型参数
    |- vocab.txt            # 词表（与谷歌原版一致）

Entre eles, bert_config.json e vocab.txt são exatamente os mesmos da BERT-base, Chinese (a versão em inglês é consistente com a versão Bert-Based Based).

Versões Pytorch e Tensorflow 2

Os modelos de versão Tensorflow (V2) e Pytorch podem ser baixados através da Biblioteca do Modelo Transformers.

Método de download: clique em qualquer modelo que você deseja baixar → selecione os "arquivos e versões" TAB → Faça o download do arquivo de modelo correspondente.

Abreviação de modelo	Modelo Tamanho do arquivo	Endereço da biblioteca de modelos Transformers
Chinês-Pert-Large	1.2g	https://huggingface.co/hfl/chinese-pert-large
Base Chinesa-Pert	0,4g	https://huggingface.co/hfl/chinese-pert-base
Mrc chinês-pert-large	1.2g	https://huggingface.co/hfl/chinese-pert-large-mrc
Chinês-Pert-Base-Mrc	0,4g	https://huggingface.co/hfl/chinese-pert-base-mrc
Inglês-Pert-Large	1.2g	https://huggingface.co/hfl/english-pert-large
Inglês-Pert-Base	0,4g	https://huggingface.co/hfl/english-pert-base

Carregamento rápido

Como a parte do corpo Pert ainda é uma estrutura Bert, os usuários podem chamar o modelo PERT usando a biblioteca Transformers.

NOTA: Todos os modelos neste diretório são carregados usando o BertTokenizer e o Bertmodel (os modelos MRC usam o BertFestionAnswering).

 from transformers import BertTokenizer , BertModel

tokenizer = BertTokenizer . from_pretrained ( "MODEL_NAME" )
model = BertModel . from_pretrained ( "MODEL_NAME" )

A lista correspondente de MODEL_NAME é a seguinte:

Nome do modelo	Model_name
Chinês-Pert-Large	HFL/Chinês-Pert-Large
Base Chinesa-Pert	HFL/Chinês-Pert-Base
Mrc chinês-pert-large	HFL/Chinês-Pert-Large-Mrc
Chinês-Pert-Base-Mrc	HFL/Chinês-Pert-Base-Mrc
Inglês-Pert-Large	HFL/inglês-pert-grande
Inglês-Pert-Base	HFL/Inglês-Pert-Base

Efeitos da linha de base do sistema

Apenas alguns resultados experimentais estão listados abaixo. Consulte o artigo para obter resultados e análises detalhados. Na tabela de resultados experimentais, o valor máximo fora dos colchetes é o valor médio dentro dos colchetes.

Missão Chinesa

Os testes de eficácia foram realizados nas 10 tarefas a seguir.

Compreensão de leitura extraída (2): CMRC 2018 (chinês simplificado), DRCD (chinês tradicional)
Classificação de texto (6):
- Frase única (2): Chnsenticorp, TNews
- Par de frases (4): XNLI, LCQMC, BQ Corpus, OCNLI
Nomeado Reconhecimento de Entidade (2): MSRA-PER, DIÁRIO DAS POVAS (DIÁRIO DAS POVAS)

Compreensão de leitura

MRC chinês

Classificação de texto

Chinês-TC

Reconhecimento de entidade nomeado

chinês-ner

Correção de erro de texto (fora de ordem)

Além das tarefas acima, também testamos as tarefas fora de ordem na correção de erros de texto, e o efeito é o seguinte.

chinês-mundo

Missão inglesa

Os testes de eficácia foram realizados nas 6 tarefas a seguir.

Compreensão de leitura extraída (2): Esquadrão 1.1, Esquadrão 2.0
Subtarase de cola (4): MNLI, SST-2, Cola, MRPC

Inglês-Nlu

Perguntas frequentes

Q1: Sobre o peso da versão de código aberto de Pert
A1: A versão de código aberto contém apenas os pesos da parte do transformador, que podem ser usados diretamente para o ajuste fino da tarefa a jusante ou os pesos iniciais do pré-treinamento secundário de outros modelos pré-treinados. Os pesos originais da versão TF podem conter pesos MLM inicializados aleatoriamente . Isto é para:

Remova pesos desnecessários relacionados à ADAM (serão reduzidos para cerca de 1/3);
Consistente com a transformação do modelo Bert dos Transformers (esse processo usa a estrutura original do BERT, portanto, os pesos da parte da tarefa pré-treinados são perdidos e os pesos de inicialização aleatória do MLM de Bert são retidos).

Q2: Sobre o efeito do PERT nas tarefas a jusante
A2: A conclusão preliminar é que ele tem melhores resultados em tarefas como compreensão de leitura e marcação de sequência, mas maus resultados em tarefas de classificação de texto. Tente os resultados específicos em suas próprias tarefas. Para detalhes, consulte o nosso artigo: https://arxiv.org/abs/2203.06906

Citar

Se os modelos ou conclusões relacionadas neste projeto forem úteis para sua pesquisa, cite o seguinte artigo: https://arxiv.org/abs/2203.06906

@article{cui2022pert,
      title={PERT: Pre-training BERT with Permuted Language Model}, 
      author={Cui, Yiming and Yang, Ziqing and Liu, Ting},
      year={2022},
      eprint={2203.06906},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Siga -nos

Bem -vindo a seguir o relato oficial oficial do WeChat do Laboratório Conjunto de Iflytek para aprender sobre as mais recentes tendências técnicas.

Pergunta feedback

Se você tiver alguma dúvida, envie -o no problema do GitHub.

Antes de enviar a pergunta, verifique se as perguntas frequentes podem resolver o problema. Também é recomendável verificar se o problema anterior pode resolver seu problema.
Reproduções repetidas e questões não relacionadas a este projeto serão processadas por [estável-bot] (Stale · Github Marketplace), entenda.
Vamos responder às suas perguntas o máximo possível, mas não podemos garantir que suas perguntas serão respondidas.
Faça perguntas educadamente e construa uma comunidade de discussão harmoniosa.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 1.32MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos