Download Chinese BERT wwm - Chinese BERT wwm Download do Código Fonte

Chinese BERT wwm

Outro código-fonte

1.0.0

Baixar

A versão chinesa-llama-alpaca-2 v1.0 foi lançada oficialmente!

Descrição chinesa | Inglês

No campo do processamento de linguagem natural, modelos de idiomas pré-treinados (modelos de idiomas pré-treinados) se tornaram uma tecnologia básica muito importante. Para promover ainda mais a pesquisa e o desenvolvimento do processamento de informações chinesas, lançamos o modelo pré-treinado chinês Bert-WWM com base na tecnologia de mascaramento de palavras inteira, bem como modelos intimamente relacionados a essa tecnologia: Bert-Wwm-EXT, Roberta-Wwm-EXT, Roberta-Wwm-Ext-Large, RBT3, RBTL3, etc.

Pré-treinamento com mascaramento de palavras inteiras para o chinês Bert
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
Publicado nas transações IEEE/ACM em áudio, fala e processamento de idiomas (TASLP)

Este projeto é baseado no Bert oficial do Google: https://github.com/google-research/bert

Veja mais recursos divulgados pela IFL do Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology

notícias

2023/3/28 Llama chinesa de código aberto e modelo Alpaca, que pode ser rapidamente implantado e experimentado no PC, View: https://github.com/ymcui/chinese-llama-alpaca

2023/3/9 Propomos um modelo pré-treinado multimodal VLE em gráficos e texto, veja: https://github.com/iflytek/vle

2022/11/15 Propomos o pequeno modelo de modelo pré-treinado chinês. View: https://github.com/iflytek/minirbt

2022/10/29 Propomos um modelo pré-treinado Lert que integra informações linguísticas. View: https://github.com/ymcui/lert

2022/3/30 Nós abrimos um novo modelo pré-treinado pert. View: https://github.com/ymcui/pert

Notícias históricas

2021/12/17 O Laboratório Conjunto IFLYTEK lança o Model Cutting Toolkit TextPruner. View: https://github.com/airaria/textpruner

2021/10/24 O Laboratório Conjunto Iflytek divulgou um modelo pré-treinado Cino para idiomas minoritários étnicos. View: https://github.com/ymcui/chinese-minority-plm

2021/7/21 "Processamento de linguagem natural: métodos baseados em modelos de pré-treinamento" escritos por muitos estudiosos do Instituto de Tecnologia da Harbin foram publicados, e todos podem comprá-lo.

2021/1/27 Todos os modelos suportaram o TensorFlow 2, ligue ou faça o download da biblioteca Transformers. https://huggingface.co/hfl

2020/9/15 Nosso artigo "Revisitando modelos pré-treinados para processamento de linguagem natural chinês" foi contratado como um longo artigo por descobertas da EMNLP.

2020/8/27 O Laboratório Conjunto da IFL liderou a lista na avaliação da Entendendo da Linguagem Natural Geral de cola, verifique a lista de cola, notícias.

2020/3/23 O modelo lançado neste diretório foi conectado ao PaddlepaddleHub para ver o carregamento rápido

2020/11/11 Para entender melhor as necessidades, você é convidado a preencher o questionário para fornecer melhores recursos.

2020/2/26 IFLYTEK LABORATÓRIO LABORATÓRIO LABERNAMENTO DO CONHECIMENTO DIRETO DE TEXTBREWER TEXTBREWER

2020/1/20 Desejo a todos boa sorte no ano do rato. Desta vez, RBT3 e RBTL3 (Roberta-WWM-UXT-BASE/grande de 3 camadas) foram liberadas para ver o modelo de quantidade de parâmetros pequenos.

2019/12/19 O modelo publicado neste diretório foi conectado a Huggingface-transformers para ver o carregamento rápido

2019/10/14 Libere o modelo Roberta-Wwm-Ext-Large, veja o download do modelo chinês

2019/9/10 Libere o modelo Roberta-Wwm-EXT e veja o download do modelo chinês

2019/7/30 Oferece modelo chinês BERT-wwm-ext treinado em um corpus geral maior (contagem de palavras de 5,4b), veja o download do modelo chinês

2019/6/20 Versão inicial, o modelo pode ser baixado através do Google e o disco da nuvem doméstica também foi enviado. Verifique o download do modelo chinês

Orientação de conteúdo

capítulo	descrever
Introdução	Introdução aos princípios básicos do BERT-WWM
Download do modelo chinês	Fornece o endereço de download do BERT-WWM
Carregamento rápido	Como usar transformadores e paddlehub carregando rapidamente modelos
Comparação de modelos	Fornece uma comparação dos parâmetros do modelo neste diretório
Efeito do sistema de linha de base chinesa	Liste alguns efeitos dos sistemas de linha de base chineses
Modelo de quantidade de parâmetros pequenos	Liste os efeitos do modelo de quantidade de parâmetros pequenos (transformador de 3 camadas)
Recomendações para uso	Várias sugestões para o uso de modelos pré-treinados chineses são fornecidos
Baixe o modelo inglês	Endereço oficial do Google Inglês Bert-Wwm Download
Perguntas frequentes	Perguntas frequentes e respostas
Citar	Relatórios técnicos neste diretório

Introdução

O mascaramento de palavras inteiras (WWM) , traduzido temporariamente como全词Mask ou整词Mask , é uma versão atualizada do Bert lançada pelo Google em 31 de maio de 2019, que altera principalmente a estratégia de geração de amostras de treinamento no estágio original de pré-treinamento. Simplificando, o método original de segmentação de palavras baseado em palavras de palavra dividirá uma palavra completa em várias subbordas. Ao gerar amostras de treinamento, essas subbordas separadas serão mascaradas aleatoriamente. Na全词Mask , se o subglema de uma palavra de uma palavra completo for mascarado, outras partes da mesma palavra forem mascaradas, ou seja,全词Mask .

Deve -se notar que a máscara aqui se refere à máscara generalizada (substituída por [máscara]; manter o vocabulário original; substituído aleatoriamente por outra palavra) e não se limita ao caso em que a palavra é substituída pela tag [MASK] . Para descrições e exemplos mais detalhados, consulte: #4

Da mesma forma, como o Google lançou oficialmente BERT-base, Chinese , o chinês é dividido por personagens como granularidade e não leva em consideração o particípio chinês (CWS) na PNL tradicional. Aplicamos o método de máscara de palavra completa em chinês, usamos a Wikipedia chinesa (incluindo chinês simplificado e tradicional) para treinamento, e usamos o Harbin Institute of Technology LTP como uma ferramenta de segmentação de palavras, ou seja, todos os caracteres chineses que compõem a mesma palavra são mapeados.

O texto a seguir mostra uma geração de amostra da全词Mask . NOTA: Por uma questão de entendimento fácil, apenas o caso de substituir a tag [Mask] é considerado nos exemplos a seguir.

ilustrar	Amostra
Texto original	Use modelos de linguagem para prever a probabilidade da próxima palavra.
Texto do particípio da palavra	Use modelos de linguagem para prever a probabilidade da próxima palavra.
Entrada de máscara original	Use o tipo de idioma [máscara] para testar o pro [máscara] da próxima palavra pro [máscara] ## lity.
Entrada completa de máscara de palavra	Use o idioma [Mask] [Mask] para [Mask] [Mask] a próxima palavra [máscara] [máscara].

Download do modelo chinês

Este diretório contém principalmente modelos básicos, para que não rotulemos a palavra base na abreviação do modelo. Para modelos de outros tamanhos, as tags correspondentes (por exemplo, grandes) são marcadas.

BERT-large模型: parâmetros de 24 camadas, 1024 ocultos, 16 cabeças, 330m
BERT-base模型: parâmetros de 12 camadas, 768 ocultos, 12 cabeças, 110m

Nota: a versão de código aberto não contém o peso das tarefas MLM; Se você precisar executar tarefas MLM, use dados adicionais para pré-treinamento secundário (como outras tarefas a jusante).

Abreviação de modelo	Materiais	Download do Google	Download do Baidu NetDisk
`RBT6, Chinese`	Dados ext ^[1]	-	Tensorflow (senha hniy)
`RBT4, Chinese`	Dados ext ^[1]	-	Tensorflow (senha sjpt)
`RBTL3, Chinese`	Dados ext ^[1]	Tensorflow Pytorch	Tensorflow (senha s6cu)
`RBT3, Chinese`	Dados ext ^[1]	Tensorflow Pytorch	Tensorflow (senha 5A57)
`RoBERTa-wwm-ext-large, Chinese`	Dados ext ^[1]	Tensorflow Pytorch	Tensorflow (senha dqqe)
`RoBERTa-wwm-ext, Chinese`	Dados ext ^[1]	Tensorflow Pytorch	Tensorflow (senha vybq)
`BERT-wwm-ext, Chinese`	Dados ext ^[1]	Tensorflow Pytorch	Tensorflow (senha wgnt)
`BERT-wwm, Chinese`	Wiki chinês	Tensorflow Pytorch	Tensorflow (senha qfh8)
`BERT-base, Chinese` ^Google chinês	Wiki chinês	Google Cloud	-
Bert-base, ^Google `BERT-base, Multilingual Cased`	Wiki multilíngue	Google Cloud	-
`BERT-base, Multilingual Uncased` ^Google multilíngue não baseado	Wiki multilíngue	Google Cloud	-

[1] Os dados do EXT incluem: Wikipedia chinesa, outras enciclopédias, notícias, perguntas e respostas e outros dados, com um número total de palavras atingindo 5,4b.

Versão Pytorch

Se você precisar da versão pytorch,

1) Converta você mesmo através do script de conversão fornecido pelos Transformers.

2) Ou faça o download diretamente de Pytorch através do site oficial do HuggingFace: https://huggingface.co/hfl

Método de download: clique em qualquer modelo que você deseja baixar → selecione os "arquivos e versões" TAB → Faça o download do arquivo de modelo correspondente.

Instruções para uso

Recomenda -se usar pontos de download do Baidu NetDisk na China continental, e os usuários estrangeiros são recomendados para usar pontos de download do Google. O tamanho do arquivo do modelo básico é de cerca de 400m . Tomando a versão TensorFlow do BERT-wwm, Chinese como exemplo, após o download, descomprimir o arquivo zip para obter:

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

Entre eles, bert_config.json e vocab.txt são exatamente os mesmos do BERT-base, Chinese original do Google. A versão pytorch contém pytorch_model.bin , bert_config.json e vocab.txt arquivos.

Carregamento rápido

Usando huggingface-transformadores

Contando na biblioteca? Transformers, os modelos acima podem ser facilmente chamados.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

NOTA: Todos os modelos neste diretório são carregados usando o BertTokenizer e o Bertmodel. Não use RobertAkenizer/Robertamodel!

A lista correspondente de MODEL_NAME é a seguinte:

Nome do modelo	Model_name
Roberta-Wwm-Ext-Large	HFL/Chinês-Roberta-Wwm-Ext-Large
Roberta-wwm-ext	HFL/Chinês-Roberta-Wwm-EXT
Bert-wwm-ext	HFL/Chinês-Bert-WWM-EXT
Bert-wwm	HFL/Chinês-Bert-Wwm
RBT3	hfl/rbt3
Rbtl3	hfl/rbtl3

Usando PaddleHub

Contando no PaddleHub, você pode baixar e instalar o modelo com apenas uma linha de código, e mais de dez linhas de código podem concluir tarefas como classificação de texto, anotação de sequência, compreensão de leitura, etc.

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

A lista correspondente de MODULE_NAME é a seguinte:

Nome do modelo	Module_name
Roberta-Wwm-Ext-Large	Chinês-Roberta-Wwm-Ext-Large
Roberta-wwm-ext	Chinês-Roberta-Wwm-Ext
Bert-wwm-ext	Chinês-Bert-Wwm-EXT
Bert-wwm	Chinês-Bert-Wwm
RBT3	RBT3
Rbtl3	rbtl3

Comparação de modelos

A seguir, é apresentado um resumo de alguns detalhes do modelo com os quais todos estão mais preocupados.

-	Bert ^Google	Bert-wwm	Bert-wwm-ext	Roberta-wwm-ext	Roberta-Wwm-Ext-Large
Mascaramento	Peça de palavra	WWM ^[1]	WWM	WWM	WWM
Tipo	base	base	base	base	Grande
Fonte de dados	Wiki	Wiki	wiki+ext ^[2]	wiki+ext	wiki+ext
Treinando tokens #	0,4b	0,4b	5.4b	5.4b	5.4b
Dispositivo	POD TPU V2	TPU v3	TPU v3	TPU v3	TPU POD V3-32 ^[3]
Etapas de treinamento	?	100k ^max128 +100k ^max512	1M ^max128 +400K ^max512	1m ^max512	2M ^Max512
Tamanho do lote	?	2.560 / 384	2.560 / 384	384	512
Otimizador	Adamw	CORDEIRO	CORDEIRO	Adamw	Adamw
Vocabulário	21.128	~ Bert ^[4]	~ Bert	~ Bert	~ Bert
Ponto de verificação init	Init aleatório	~ Bert	~ Bert	~ Bert	Init aleatório

[1] WWM = Mascarar de palavra inteira
[2] ext = dados estendidos
[3] TPU POD V3-32 (512G HBM) é equivalente a 4 TPU V3 (128g HBM)
[4] ~BERT significa herdar os atributos do bert chinês original do Google

Efeito do sistema de linha de base chinesa

Para comparar os efeitos da linha de base, testamos os seguintes conjuntos de dados chineses, incluindo tarefas句子级e篇章级. Para BERT-wwm-ext , RoBERTa-wwm-ext e RoBERTa-wwm-ext-large , não ajustamos ainda mais a taxa de aprendizado ideal , mas usamos diretamente a taxa de aprendizado ideal do BERT-wwm .

Melhor taxa de aprendizado:

Modelo	Bert	Ernie	Bert-wwm*
CMRC 2018	3E-5	8e-5	3E-5
Drcd	3E-5	8e-5	3E-5
CJRC	4E-5	8e-5	4E-5
Xnli	3E-5	5E-5	3E-5
CHNSENTICORP	2E-5	5E-5	2E-5
LCQMC	2E-5	3E-5	2E-5
BQ Corpus	3E-5	5E-5	3E-5
THUCNEWS	2E-5	5E-5	2E-5

*Representa todos os modelos da série WWM (Bert-WWM, Bert-Wwm-Ext, Roberta-Wwm-Ext, Roberta-Wwm-Ext-Large)

Apenas alguns resultados estão listados abaixo. Consulte nosso relatório técnico para obter os resultados completos.

CMRC 2018 : Compreensão da leitura da extração de fragmentos de capítulo (chinês simplificado)
DRCD : Leitura de compreensão da extração de fragmentos de capítulo (chinês tradicional)
CJRC : Compreensão da leitura legal (chinês simplificado)
Xnli : inferência de linguagem natural
CHNSENTICORP : Análise Senti
LCQMC : par de pares de frases
BQ Corpus : Comparação de pares de frases
THUCNEWS : Classificação de texto no nível do capítulo

Nota: Para garantir a confiabilidade dos resultados, para o mesmo modelo, executamos 10 vezes (sementes aleatórias diferentes) para relatar os valores máximos e médios do desempenho do modelo (os valores médios entre colchetes). Se nada inesperado acontecer, o resultado de sua operação deve estar nesse intervalo.

No indicador de avaliação, o valor médio é representado entre colchetes e o valor máximo é representado por colchetes externos.

Compreensão de leitura chinesa simplificada: CMRC 2018

O conjunto de dados do CMRC 2018 são os dados de compreensão de leitura de máquina chinesa divulgados pelo Laboratório Conjunto do Instituto de Tecnologia Harbin. De acordo com uma determinada pergunta, o sistema precisa extrair fragmentos do capítulo como a resposta, da mesma forma que o esquadrão. Os indicadores de avaliação são: em / f1

Modelo	Conjunto de desenvolvimento	Conjunto de testes	Conjunto de desafios
Bert	65,5 (64,4) / 84.5 (84,0)	70.0 (68.7) / 87.0 (86,3)	18.6 (17.0) / 43.3 (41,3)
Ernie	65,4 (64,3) / 84.7 (84,2)	69.4 (68.2) / 86.6 (86.1)	19.6 (17.0) / 44.3 (42,8)
Bert-wwm	66,3 (65,0) / 85.6 (84,7)	70,5 (69.1) / 87,4 (86,7)	21.0 (19.3) / 47.0 (43.9)
Bert-wwm-ext	67.1 (65.6) / 85.7 (85,0)	71.4 (70.0) / 87,7 (87,0)	24.0 (20.0) / 47.3 (44.6)
Roberta-wwm-ext	67.4 (66,5) / 87.2 (86,5)	72.6 (71.4) / 89.4 (88,8)	26.2 (24.6) / 51.0 (49.1)
Roberta-Wwm-Ext-Large	68,5 (67,6) / 88.4 (87,9)	74.2 (72,4) / 90.6 (90,0)	31.5 (30.1) / 60.1 (57,5)

Compreensão tradicional de leitura chinesa: DRCD

O conjunto de dados DRCD foi lançado pelo Delta Research Institute, Taiwan, China. Sua forma é a mesma do esquadrão e é um conjunto de dados de compreensão de leitura extraído baseado no chinês tradicional. Como os caracteres chineses tradicionais são removidos de Ernie, não é recomendável usar Ernie (ou convertê -lo em chinês simplificado e depois processá -lo) nos dados tradicionais chineses. Os indicadores de avaliação são: em / f1

Modelo	Conjunto de desenvolvimento	Conjunto de testes
Bert	83.1 (82.7) / 89,9 (89,6)	82.2 (81,6) / 89.2 (88,8)
Ernie	73.2 (73.0) / 83.9 (83,8)	71.9 (71.4) / 82.5 (82.3)
Bert-wwm	84,3 (83,4) / 90,5 (90,2)	82,8 (81,8) / 89,7 (89,0)
Bert-wwm-ext	85,0 (84,5) / 91.2 (90,9)	83.6 (83,0) / 90,4 (89,9)
Roberta-wwm-ext	86,6 (85,9) / 92,5 (92.2)	85,6 (85.2) / 92.0 (91,7)
Roberta-Wwm-Ext-Large	89,6 (89.1) / 94.8 (94,4)	89,6 (88,9) / 94.5 (94.1)

Compreensão da leitura judicial: CJRC

O conjunto de dados CJRC é os dados de compreensão de leitura de máquina chinesa para o campo judicial divulgado pelo Laboratório Conjunto de Iflytek. Deve -se notar que os dados usados no experimento não são os dados finais divulgados pelo oficial, e os resultados são apenas para referência. Os indicadores de avaliação são: em / f1

Modelo	Conjunto de desenvolvimento	Conjunto de testes
Bert	54.6 (54,0) / 75.4 (74,5)	55.1 (54.1) / 75.2 (74,3)
Ernie	54.3 (53.9) / 75.3 (74.6)	55.0 (53.9) / 75.0 (73,9)
Bert-wwm	54.7 (54,0) / 75.2 (74,8)	55.1 (54.1) / 75.4 (74.4)
Bert-wwm-ext	55.6 (54.8) / 76.0 (75,3)	55.6 (54,9) / 75,8 (75,0)
Roberta-wwm-ext	58,7 (57,6) / 79.1 (78.3)	59,0 (57,8) / 79,0 (78,0)
Roberta-Wwm-Ext-Large	62.1 (61.1) / 82.4 (81,6)	62.4 (61.4) / 82.2 (81,0)

Inferência de linguagem natural: xnli

Na tarefa de inferência de linguagem natural, adotamos dados XNLI , que exigem que o texto seja dividido em três categorias: entailment , neutral e contradictory . O indicador de avaliação é: precisão

Modelo	Conjunto de desenvolvimento	Conjunto de testes
Bert	77,8 (77.4)	77,8 (77,5)
Ernie	79,7 (79,4)	78.6 (78.2)
Bert-wwm	79,0 (78.4)	78.2 (78.0)
Bert-wwm-ext	79.4 (78.6)	78.7 (78.3)
Roberta-wwm-ext	80.0 (79.2)	78,8 (78.3)
Roberta-Wwm-Ext-Large	82.1 (81.3)	81.2 (80,6)

Senticorp

Na tarefa de análise de sentimentos, o conjunto de dados de classificação de emoção binária ChnsEnticorp. O indicador de avaliação é: precisão

Modelo	Conjunto de desenvolvimento	Conjunto de testes
Bert	94,7 (94,3)	95,0 (94,7)
Ernie	95.4 (94,8)	95.4 (95,3)
Bert-wwm	95.1 (94,5)	95.4 (95.0)
Bert-wwm-ext	95.4 (94.6)	95.3 (94.7)
Roberta-wwm-ext	95.0 (94,6)	95.6 (94,8)
Roberta-Wwm-Ext-Large	95,8 (94,9)	95,8 (94,9)

Classificação de pares de frases: LCQMC, BQ Corpus

Os dois conjuntos de dados a seguir precisam classificar um par de frases para determinar se a semântica das duas frases são as mesmas (tarefa de classificação binária).

LCQMC

O LCQMC foi lançado pelo Centro de Pesquisa de Computação Inteligente do Instituto de Tecnologia de Harbin, Shenzhen Graduate School. O indicador de avaliação é: precisão

Modelo	Conjunto de desenvolvimento	Conjunto de testes
Bert	89,4 (88,4)	86,9 (86,4)
Ernie	89,8 (89,6)	87.2 (87,0)
Bert-wwm	89.4 (89,2)	87.0 (86,8)
Bert-wwm-ext	89,6 (89,2)	87.1 (86,6)
Roberta-wwm-ext	89,0 (88,7)	86.4 (86.1)
Roberta-Wwm-Ext-Large	90.4 (90.0)	87.0 (86,8)

BQ Corpus

O BQ Corpus é divulgado pelo Centro de Pesquisa de Computação Inteligente do Instituto de Tecnologia Harbin Shenzhen Graduate School e é um conjunto de dados para o campo bancário. O indicador de avaliação é: precisão

Modelo	Conjunto de desenvolvimento	Conjunto de testes
Bert	86.0 (85,5)	84,8 (84,6)
Ernie	86,3 (85,5)	85,0 (84,6)
Bert-wwm	86.1 (85.6)	85,2 (84,9)
Bert-wwm-ext	86,4 (85,5)	85,3 (84,8)
Roberta-wwm-ext	86.0 (85,4)	85,0 (84,6)
Roberta-Wwm-Ext-Large	86,3 (85,7)	85,8 (84,9)

Classificação de texto no nível do capítulo: THUCNEWS

Para tarefas de classificação de texto no nível do capítulo, selecionamos o THUCNEWS, um conjunto de dados de notícias divulgado pelo Laboratório de Processamento de Linguagem Natural da Universidade de Tsinghua. Estamos pegando um dos subconjuntos e precisamos dividir as notícias em uma das 10 categorias. O indicador de avaliação é: precisão

Modelo	Conjunto de desenvolvimento	Conjunto de testes
Bert	97,7 (97.4)	97,8 (97,6)
Ernie	97,6 (97,3)	97,5 (97,3)
Bert-wwm	98.0 (97,6)	97,8 (97,6)
Bert-wwm-ext	97,7 (97,5)	97,7 (97,5)
Roberta-wwm-ext	98.3 (97,9)	97,7 (97,5)
Roberta-Wwm-Ext-Large	98.3 (97,7)	97,8 (97,6)

Modelo de quantidade de parâmetros pequenos

A seguir, são apresentados os resultados experimentais em várias tarefas de PNL e apenas a comparação dos resultados do conjunto de testes é fornecida na tabela.

Modelo	CMRC 2018	Drcd	Xnli	Csc	LCQMC	BQ	média	Quantidade de parâmetro
Roberta-Wwm-Ext-Large	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85.8	87.335	325m
Roberta-wwm-ext	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102m
Rbtl3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61m (59,8%)
RBT3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38m (37,3%)

Comparação de efeitos relativos:

Modelo	CMRC 2018	Drcd	Xnli	Csc	LCQMC	BQ	média	Média de classificação
Roberta-Wwm-Ext-Large	102,2% / 101,3%	104,7% / 102,7%	103,0%	100,2%	100,7%	100,9%	101,9%	101,2%
Roberta-wwm-ext	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
Rbtl3	87,2% / 93,3%	90,2% / 93,0%	93,9%	98,5%	98,5%	98,4%	94,3%	97,35%
RBT3	85,7% / 91,5%	87,6% / 91,2%	91,8%	97,1%	98,5%	98,0%	92,9%	96,35%

A quantidade de parâmetros é calculada com base na tarefa de classificação XNLI
A porcentagem de parâmetros entre colchetes é baseada no modelo base original (ou seja, Roberta-Wwm-EXT)
RBT3: Inicializado pela camada Roberta-Wwm-EXT 3 e continuou a treinar por 1 milhão de etapas.
RBTL3: Inicializado pela camada Roberta-Wwm-EXT-Large 3 e continuou a treinar para 1 milhão de etapas.
O nome do RBT é composto por três iniciais sílabas de Roberta, e L representa o grande modelo
O uso diretamente das três primeiras camadas de Roberta-Wwm-EXT-Large para inicialização e treinamento a jusante de tarefas reduzirá significativamente o efeito. Por exemplo, no CMRC 2018, o conjunto de testes pode atingir apenas 42,9/65.3, enquanto o RBTL3 pode atingir 63,3/83.4

Bem-vindo ao pequeno modelo de modelo pré-treinado chinês com melhores resultados: https://github.com/iflytek/minirbt

Recomendações para uso

A taxa de aprendizado inicial é um parâmetro muito importante (seja BERT ou outros modelos) e precisa ser ajustado de acordo com a tarefa de destino.
A taxa de aprendizado ideal de ERNIE é bem diferente de BERT / BERT-wwm ; portanto, certifique-se de ajustar a taxa de aprendizado ao usar ERNIE (com base nos resultados experimentais acima, a taxa de aprendizado inicial exigida por ERNIE é relativamente alta).
Como BERT / BERT-wwm usa dados da Wikipedia para treinamento, eles são melhores para modelar textos formais; Enquanto ERNIE usa dados adicionais de rede, como Baidu Tieba e Zhi, que têm vantagens na modelagem de textos informais (como o Weibo, etc.).
Em tarefas de modelagem de texto longo, como compreensão de leitura, classificação de documentos, BERT e BERT-wwm têm melhores resultados.
Se os dados da tarefa de destino forem diferentes dos campos do modelo pré-treinado, faça um pré-treinamento adicional em seu próprio conjunto de dados.
Se você deseja processar dados tradicionais chineses, use BERT ou BERT-wwm . Porque descobrimos que quase não existe chinês tradicional na lista de vocabulário de ERNIE .

Baixe o modelo inglês

Para facilitar todos para baixar, traga o modelo inglês BERT-large (wwm) lançado oficialmente pelo Google :

BERT-Large, Uncased (Whole Word Masking) : parâmetros de 24 camadas, 1024-Hidden, 16 cabeças, 340m
BERT-Large, Cased (Whole Word Masking) : parâmetros de 24 camadas, 1024-Hidden, 16 cabeças, 340m

Perguntas frequentes

P: Como usar este modelo?
R: Como usar o Bert chinês lançado pelo Google, como usar isso. O texto não precisa passar pela segmentação de palavras e o WWM afeta apenas o processo de pré-treinamento e não afeta a entrada de tarefas a jusante.

P: Existe algum código de pré-treinamento fornecido?
R: Infelizmente, não posso fornecer código relevante. Você pode se referir a #10 e #13 para implementação.

P: Onde baixar um determinado conjunto de dados?
A: Por favor, verifique o diretório data . README.md no diretório de tarefas indica a fonte de dados. Para conteúdo protegido por direitos autorais, pesquise sozinho ou entre em contato com o autor original para obter dados.

P: Haverá planos de lançar um modelo maior? Por exemplo, a versão Bert-Large WWM?
R: Se obtivermos melhores resultados do experimento, consideraremos lançar uma versão maior.

P: Você está mentindo! Não consegue reproduzir o resultado?
R: Na tarefa a jusante, adotamos o modelo mais simples. Por exemplo, para tarefas de classificação, usamos diretamente run_classifier.py (fornecido pelo Google). Se o valor médio não puder ser alcançado, significa que há um bug no próprio experimento. Por favor, verifique com cuidado. Existem muitos fatores aleatórios para o maior valor e não podemos garantir que podemos atingir o valor mais alto. Outro fator reconhecido: a redução do tamanho do lote reduzirá significativamente o efeito experimental. Para detalhes, consulte a edição relevante do diretório BERT e XLNET.

P: Vou obter melhores resultados do que você!
A: Parabéns.

P: Quanto tempo leva para treinar e que equipamento ele treinou?
R: O treinamento foi concluído na versão do Google TPU V3 (128G HBM). O treinamento BERT-WWM leva cerca de 1,5 dias, enquanto o Bert-WWM-EXT leva várias semanas (mais dados são usados para iterar mais). Deve-se notar que, durante o estágio de pré-treinamento, usamos LAMB Optimizer (implementação da versão TensorFlow). Este otimizador tem um bom suporte para lotes grandes. Ao ajustar as tarefas a jusante, usamos AdamWeightDecayOptimizer padrão de Bert.

P: Quem é Ernie?
R: O modelo Ernie neste projeto refere -se especificamente ao Ernie proposto pelo Baidu, em vez do Ernie publicado pela Universidade Tsinghua na ACL 2019.

P: O efeito do Bert-WWM não é muito bom em todas as tarefas
R: O objetivo deste projeto é fornecer aos pesquisadores modelos pré-treinados diversificados, selecionando livremente Bert, Ernie ou Bert-WWM. Fornecemos apenas dados experimentais e ainda precisamos tentar constantemente o nosso melhor em nossas próprias tarefas para tirar conclusões. Mais um modelo, mais uma opção.

P: Por que alguns conjuntos de dados não são tentados?
R: Para ser franco, não estou com vontade de encontrar mais dados; 2) eu não preciso; 3) Não tenho dinheiro;

P: Vamos avaliar brevemente esses modelos
R: Cada um tem seu próprio foco e seus próprios pontos fortes. A pesquisa e o desenvolvimento do processamento de linguagem natural chinês requer esforços conjuntos de todas as partes.

P: Qual é o nome do próximo modelo pré -terenciado que você prevê?
A: Talvez seja chamado Zoe. Zoe: incorporações zero-shot do modelo de linguagem

P: Mais detalhes sobre RoBERTa-wwm-ext ?
R: Integramos as vantagens de Roberta e Bert-WWM para fazer uma combinação natural dos dois. A diferença entre os modelos neste diretório é a seguinte:
1) Use a estratégia WWM para mascarar na fase de pré-treinamento (mas sem mascaramento dinâmico)
2) Basta cancelar a perda da previsão da frase na próxima frase (NSP)
3) Não use mais o modo de treinamento de max_len = 128 e depois max_len = 512, treinar diretamente max_len = 512
4) Estenda as etapas de treinamento adequadamente

Deve-se notar que esse modelo não é o modelo Roberta original, mas é apenas um modelo Bert treinado em um método semelhante de treinamento de Roberta, como Bert, semelhante a Roberta. Portanto, ao usar tarefas a jusante e converter modelos, processe -os em Bert, em vez de Roberta.

Citar

Se os recursos ou tecnologias deste projeto forem úteis para o seu trabalho de pesquisa, consulte o artigo a seguir no artigo.

Preferred (Journal Explore): https://ieexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Ou (versão da conferência): https://www.aclweb.org/anthology/2020.findings-emnlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

Agradecimentos

O primeiro autor é parcialmente financiado pelo programa de nuvem de pesquisa da TPU do Google .

Isenção de responsabilidade

Este projeto não é o modelo chinês BERT-WWM lançado oficialmente pelo Google. Ao mesmo tempo, este projeto não é um produto oficial do Harbin Institute of Technology ou Iflytek. Os resultados experimentais apresentados no relatório técnico mostram apenas que o desempenho sob um conjunto de dados específico e a combinação de hiperparâmetro não representa a natureza de cada modelo. Os resultados experimentais podem mudar devido a sementes de número aleatório e dispositivos de computação. O conteúdo deste projeto é apenas para referência de pesquisa técnica e não é usada como base final. Os usuários podem usar o modelo a qualquer momento dentro do escopo da licença, mas não somos responsáveis por perdas diretas ou indiretas causadas pelo uso do conteúdo do projeto.