Descrição chinesa | Inglês

No campo do processamento de linguagem natural, modelos de idiomas pré-treinados (modelos de idiomas pré-treinados) se tornaram uma tecnologia básica muito importante. Para promover ainda mais a pesquisa e o desenvolvimento do processamento de informações chinesas, lançamos o modelo pré-treinado chinês Bert-WWM com base na tecnologia de mascaramento de palavras inteira, bem como modelos intimamente relacionados a essa tecnologia: Bert-Wwm-EXT, Roberta-Wwm-EXT, Roberta-Wwm-Ext-Large, RBT3, RBTL3, etc.
Este projeto é baseado no Bert oficial do Google: https://github.com/google-research/bert
Lert chinês | Pert inglesa chinesa | MacBert chinês | Electra chinês | Xlnet chinês | Bert chinês | Ferramenta de destilação do conhecimento Textbrewer | Ferramenta de corte de modelos Princinente de texto
Veja mais recursos divulgados pela IFL do Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology
2023/3/28 Llama chinesa de código aberto e modelo Alpaca, que pode ser rapidamente implantado e experimentado no PC, View: https://github.com/ymcui/chinese-llama-alpaca
2023/3/9 Propomos um modelo pré-treinado multimodal VLE em gráficos e texto, veja: https://github.com/iflytek/vle
2022/11/15 Propomos o pequeno modelo de modelo pré-treinado chinês. View: https://github.com/iflytek/minirbt
2022/10/29 Propomos um modelo pré-treinado Lert que integra informações linguísticas. View: https://github.com/ymcui/lert
2022/3/30 Nós abrimos um novo modelo pré-treinado pert. View: https://github.com/ymcui/pert
2021/10/24 O Laboratório Conjunto Iflytek divulgou um modelo pré-treinado Cino para idiomas minoritários étnicos. View: https://github.com/ymcui/chinese-minority-plm
2021/7/21 "Processamento de linguagem natural: métodos baseados em modelos de pré-treinamento" escritos por muitos estudiosos do Instituto de Tecnologia da Harbin foram publicados, e todos podem comprá-lo.
2021/1/27 Todos os modelos suportaram o TensorFlow 2, ligue ou faça o download da biblioteca Transformers. https://huggingface.co/hfl
2020/9/15 Nosso artigo "Revisitando modelos pré-treinados para processamento de linguagem natural chinês" foi contratado como um longo artigo por descobertas da EMNLP.
2020/8/27 O Laboratório Conjunto da IFL liderou a lista na avaliação da Entendendo da Linguagem Natural Geral de cola, verifique a lista de cola, notícias.
2020/3/23 O modelo lançado neste diretório foi conectado ao PaddlepaddleHub para ver o carregamento rápido
2020/11/11 Para entender melhor as necessidades, você é convidado a preencher o questionário para fornecer melhores recursos.
2020/2/26 IFLYTEK LABORATÓRIO LABORATÓRIO LABERNAMENTO DO CONHECIMENTO DIRETO DE TEXTBREWER TEXTBREWER
2020/1/20 Desejo a todos boa sorte no ano do rato. Desta vez, RBT3 e RBTL3 (Roberta-WWM-UXT-BASE/grande de 3 camadas) foram liberadas para ver o modelo de quantidade de parâmetros pequenos.
2019/12/19 O modelo publicado neste diretório foi conectado a Huggingface-transformers para ver o carregamento rápido
2019/10/14 Libere o modelo Roberta-Wwm-Ext-Large, veja o download do modelo chinês
2019/9/10 Libere o modelo Roberta-Wwm-EXT e veja o download do modelo chinês
2019/7/30 Oferece modelo chinês BERT-wwm-ext treinado em um corpus geral maior (contagem de palavras de 5,4b), veja o download do modelo chinês
2019/6/20 Versão inicial, o modelo pode ser baixado através do Google e o disco da nuvem doméstica também foi enviado. Verifique o download do modelo chinês
| capítulo | descrever |
|---|---|
| Introdução | Introdução aos princípios básicos do BERT-WWM |
| Download do modelo chinês | Fornece o endereço de download do BERT-WWM |
| Carregamento rápido | Como usar transformadores e paddlehub carregando rapidamente modelos |
| Comparação de modelos | Fornece uma comparação dos parâmetros do modelo neste diretório |
| Efeito do sistema de linha de base chinesa | Liste alguns efeitos dos sistemas de linha de base chineses |
| Modelo de quantidade de parâmetros pequenos | Liste os efeitos do modelo de quantidade de parâmetros pequenos (transformador de 3 camadas) |
| Recomendações para uso | Várias sugestões para o uso de modelos pré-treinados chineses são fornecidos |
| Baixe o modelo inglês | Endereço oficial do Google Inglês Bert-Wwm Download |
| Perguntas frequentes | Perguntas frequentes e respostas |
| Citar | Relatórios técnicos neste diretório |
O mascaramento de palavras inteiras (WWM) , traduzido temporariamente como全词Mask ou整词Mask , é uma versão atualizada do Bert lançada pelo Google em 31 de maio de 2019, que altera principalmente a estratégia de geração de amostras de treinamento no estágio original de pré-treinamento. Simplificando, o método original de segmentação de palavras baseado em palavras de palavra dividirá uma palavra completa em várias subbordas. Ao gerar amostras de treinamento, essas subbordas separadas serão mascaradas aleatoriamente. Na全词Mask , se o subglema de uma palavra de uma palavra completo for mascarado, outras partes da mesma palavra forem mascaradas, ou seja,全词Mask .
Deve -se notar que a máscara aqui se refere à máscara generalizada (substituída por [máscara]; manter o vocabulário original; substituído aleatoriamente por outra palavra) e não se limita ao caso em que a palavra é substituída pela tag [MASK] . Para descrições e exemplos mais detalhados, consulte: #4
Da mesma forma, como o Google lançou oficialmente BERT-base, Chinese , o chinês é dividido por personagens como granularidade e não leva em consideração o particípio chinês (CWS) na PNL tradicional. Aplicamos o método de máscara de palavra completa em chinês, usamos a Wikipedia chinesa (incluindo chinês simplificado e tradicional) para treinamento, e usamos o Harbin Institute of Technology LTP como uma ferramenta de segmentação de palavras, ou seja, todos os caracteres chineses que compõem a mesma palavra são mapeados.
O texto a seguir mostra uma geração de amostra da全词Mask . NOTA: Por uma questão de entendimento fácil, apenas o caso de substituir a tag [Mask] é considerado nos exemplos a seguir.
| ilustrar | Amostra |
|---|---|
| Texto original | Use modelos de linguagem para prever a probabilidade da próxima palavra. |
| Texto do particípio da palavra | Use modelos de linguagem para prever a probabilidade da próxima palavra. |
| Entrada de máscara original | Use o tipo de idioma [máscara] para testar o pro [máscara] da próxima palavra pro [máscara] ## lity. |
| Entrada completa de máscara de palavra | Use o idioma [Mask] [Mask] para [Mask] [Mask] a próxima palavra [máscara] [máscara]. |
Este diretório contém principalmente modelos básicos, para que não rotulemos a palavra base na abreviação do modelo. Para modelos de outros tamanhos, as tags correspondentes (por exemplo, grandes) são marcadas.
BERT-large模型: parâmetros de 24 camadas, 1024 ocultos, 16 cabeças, 330mBERT-base模型: parâmetros de 12 camadas, 768 ocultos, 12 cabeças, 110mNota: a versão de código aberto não contém o peso das tarefas MLM; Se você precisar executar tarefas MLM, use dados adicionais para pré-treinamento secundário (como outras tarefas a jusante).
| Abreviação de modelo | Materiais | Download do Google | Download do Baidu NetDisk |
|---|---|---|---|
RBT6, Chinese | Dados ext [1] | - | Tensorflow (senha hniy) |
RBT4, Chinese | Dados ext [1] | - | Tensorflow (senha sjpt) |
RBTL3, Chinese | Dados ext [1] | Tensorflow Pytorch | Tensorflow (senha s6cu) |
RBT3, Chinese | Dados ext [1] | Tensorflow Pytorch | Tensorflow (senha 5A57) |
RoBERTa-wwm-ext-large, Chinese | Dados ext [1] | Tensorflow Pytorch | Tensorflow (senha dqqe) |
RoBERTa-wwm-ext, Chinese | Dados ext [1] | Tensorflow Pytorch | Tensorflow (senha vybq) |
BERT-wwm-ext, Chinese | Dados ext [1] | Tensorflow Pytorch | Tensorflow (senha wgnt) |
BERT-wwm, Chinese | Wiki chinês | Tensorflow Pytorch | Tensorflow (senha qfh8) |
BERT-base, Chinese Google chinês | Wiki chinês | Google Cloud | - |
Bert-base, Google BERT-base, Multilingual Cased | Wiki multilíngue | Google Cloud | - |
BERT-base, Multilingual Uncased Google multilíngue não baseado | Wiki multilíngue | Google Cloud | - |
[1] Os dados do EXT incluem: Wikipedia chinesa, outras enciclopédias, notícias, perguntas e respostas e outros dados, com um número total de palavras atingindo 5,4b.
Se você precisar da versão pytorch,
1) Converta você mesmo através do script de conversão fornecido pelos Transformers.
2) Ou faça o download diretamente de Pytorch através do site oficial do HuggingFace: https://huggingface.co/hfl
Método de download: clique em qualquer modelo que você deseja baixar → selecione os "arquivos e versões" TAB → Faça o download do arquivo de modelo correspondente.
Recomenda -se usar pontos de download do Baidu NetDisk na China continental, e os usuários estrangeiros são recomendados para usar pontos de download do Google. O tamanho do arquivo do modelo básico é de cerca de 400m . Tomando a versão TensorFlow do BERT-wwm, Chinese como exemplo, após o download, descomprimir o arquivo zip para obter:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
Entre eles, bert_config.json e vocab.txt são exatamente os mesmos do BERT-base, Chinese original do Google. A versão pytorch contém pytorch_model.bin , bert_config.json e vocab.txt arquivos.
Contando na biblioteca? Transformers, os modelos acima podem ser facilmente chamados.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
NOTA: Todos os modelos neste diretório são carregados usando o BertTokenizer e o Bertmodel. Não use RobertAkenizer/Robertamodel!
A lista correspondente de MODEL_NAME é a seguinte:
| Nome do modelo | Model_name |
|---|---|
| Roberta-Wwm-Ext-Large | HFL/Chinês-Roberta-Wwm-Ext-Large |
| Roberta-wwm-ext | HFL/Chinês-Roberta-Wwm-EXT |
| Bert-wwm-ext | HFL/Chinês-Bert-WWM-EXT |
| Bert-wwm | HFL/Chinês-Bert-Wwm |
| RBT3 | hfl/rbt3 |
| Rbtl3 | hfl/rbtl3 |
Contando no PaddleHub, você pode baixar e instalar o modelo com apenas uma linha de código, e mais de dez linhas de código podem concluir tarefas como classificação de texto, anotação de sequência, compreensão de leitura, etc.
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
A lista correspondente de MODULE_NAME é a seguinte:
| Nome do modelo | Module_name |
|---|---|
| Roberta-Wwm-Ext-Large | Chinês-Roberta-Wwm-Ext-Large |
| Roberta-wwm-ext | Chinês-Roberta-Wwm-Ext |
| Bert-wwm-ext | Chinês-Bert-Wwm-EXT |
| Bert-wwm | Chinês-Bert-Wwm |
| RBT3 | RBT3 |
| Rbtl3 | rbtl3 |
A seguir, é apresentado um resumo de alguns detalhes do modelo com os quais todos estão mais preocupados.
| - | Bert Google | Bert-wwm | Bert-wwm-ext | Roberta-wwm-ext | Roberta-Wwm-Ext-Large |
|---|---|---|---|---|---|
| Mascaramento | Peça de palavra | WWM [1] | WWM | WWM | WWM |
| Tipo | base | base | base | base | Grande |
| Fonte de dados | Wiki | Wiki | wiki+ext [2] | wiki+ext | wiki+ext |
| Treinando tokens # | 0,4b | 0,4b | 5.4b | 5.4b | 5.4b |
| Dispositivo | POD TPU V2 | TPU v3 | TPU v3 | TPU v3 | TPU POD V3-32 [3] |
| Etapas de treinamento | ? | 100k max128 +100k max512 | 1M max128 +400K max512 | 1m max512 | 2M Max512 |
| Tamanho do lote | ? | 2.560 / 384 | 2.560 / 384 | 384 | 512 |
| Otimizador | Adamw | CORDEIRO | CORDEIRO | Adamw | Adamw |
| Vocabulário | 21.128 | ~ Bert [4] | ~ Bert | ~ Bert | ~ Bert |
| Ponto de verificação init | Init aleatório | ~ Bert | ~ Bert | ~ Bert | Init aleatório |
[1] WWM = Mascarar de palavra inteira
[2] ext = dados estendidos
[3] TPU POD V3-32 (512G HBM) é equivalente a 4 TPU V3 (128g HBM)
[4]~BERTsignifica herdar os atributos do bert chinês original do Google
Para comparar os efeitos da linha de base, testamos os seguintes conjuntos de dados chineses, incluindo tarefas句子级e篇章级. Para BERT-wwm-ext , RoBERTa-wwm-ext e RoBERTa-wwm-ext-large , não ajustamos ainda mais a taxa de aprendizado ideal , mas usamos diretamente a taxa de aprendizado ideal do BERT-wwm .
Melhor taxa de aprendizado:
| Modelo | Bert | Ernie | Bert-wwm* |
|---|---|---|---|
| CMRC 2018 | 3E-5 | 8e-5 | 3E-5 |
| Drcd | 3E-5 | 8e-5 | 3E-5 |
| CJRC | 4E-5 | 8e-5 | 4E-5 |
| Xnli | 3E-5 | 5E-5 | 3E-5 |
| CHNSENTICORP | 2E-5 | 5E-5 | 2E-5 |
| LCQMC | 2E-5 | 3E-5 | 2E-5 |
| BQ Corpus | 3E-5 | 5E-5 | 3E-5 |
| THUCNEWS | 2E-5 | 5E-5 | 2E-5 |
*Representa todos os modelos da série WWM (Bert-WWM, Bert-Wwm-Ext, Roberta-Wwm-Ext, Roberta-Wwm-Ext-Large)
Apenas alguns resultados estão listados abaixo. Consulte nosso relatório técnico para obter os resultados completos.
Nota: Para garantir a confiabilidade dos resultados, para o mesmo modelo, executamos 10 vezes (sementes aleatórias diferentes) para relatar os valores máximos e médios do desempenho do modelo (os valores médios entre colchetes). Se nada inesperado acontecer, o resultado de sua operação deve estar nesse intervalo.
No indicador de avaliação, o valor médio é representado entre colchetes e o valor máximo é representado por colchetes externos.
O conjunto de dados do CMRC 2018 são os dados de compreensão de leitura de máquina chinesa divulgados pelo Laboratório Conjunto do Instituto de Tecnologia Harbin. De acordo com uma determinada pergunta, o sistema precisa extrair fragmentos do capítulo como a resposta, da mesma forma que o esquadrão. Os indicadores de avaliação são: em / f1
| Modelo | Conjunto de desenvolvimento | Conjunto de testes | Conjunto de desafios |
|---|---|---|---|
| Bert | 65,5 (64,4) / 84.5 (84,0) | 70.0 (68.7) / 87.0 (86,3) | 18.6 (17.0) / 43.3 (41,3) |
| Ernie | 65,4 (64,3) / 84.7 (84,2) | 69.4 (68.2) / 86.6 (86.1) | 19.6 (17.0) / 44.3 (42,8) |
| Bert-wwm | 66,3 (65,0) / 85.6 (84,7) | 70,5 (69.1) / 87,4 (86,7) | 21.0 (19.3) / 47.0 (43.9) |
| Bert-wwm-ext | 67.1 (65.6) / 85.7 (85,0) | 71.4 (70.0) / 87,7 (87,0) | 24.0 (20.0) / 47.3 (44.6) |
| Roberta-wwm-ext | 67.4 (66,5) / 87.2 (86,5) | 72.6 (71.4) / 89.4 (88,8) | 26.2 (24.6) / 51.0 (49.1) |
| Roberta-Wwm-Ext-Large | 68,5 (67,6) / 88.4 (87,9) | 74.2 (72,4) / 90.6 (90,0) | 31.5 (30.1) / 60.1 (57,5) |
O conjunto de dados DRCD foi lançado pelo Delta Research Institute, Taiwan, China. Sua forma é a mesma do esquadrão e é um conjunto de dados de compreensão de leitura extraído baseado no chinês tradicional. Como os caracteres chineses tradicionais são removidos de Ernie, não é recomendável usar Ernie (ou convertê -lo em chinês simplificado e depois processá -lo) nos dados tradicionais chineses. Os indicadores de avaliação são: em / f1
| Modelo | Conjunto de desenvolvimento | Conjunto de testes |
|---|---|---|
| Bert | 83.1 (82.7) / 89,9 (89,6) | 82.2 (81,6) / 89.2 (88,8) |
| Ernie | 73.2 (73.0) / 83.9 (83,8) | 71.9 (71.4) / 82.5 (82.3) |
| Bert-wwm | 84,3 (83,4) / 90,5 (90,2) | 82,8 (81,8) / 89,7 (89,0) |
| Bert-wwm-ext | 85,0 (84,5) / 91.2 (90,9) | 83.6 (83,0) / 90,4 (89,9) |
| Roberta-wwm-ext | 86,6 (85,9) / 92,5 (92.2) | 85,6 (85.2) / 92.0 (91,7) |
| Roberta-Wwm-Ext-Large | 89,6 (89.1) / 94.8 (94,4) | 89,6 (88,9) / 94.5 (94.1) |
O conjunto de dados CJRC é os dados de compreensão de leitura de máquina chinesa para o campo judicial divulgado pelo Laboratório Conjunto de Iflytek. Deve -se notar que os dados usados no experimento não são os dados finais divulgados pelo oficial, e os resultados são apenas para referência. Os indicadores de avaliação são: em / f1
| Modelo | Conjunto de desenvolvimento | Conjunto de testes |
|---|---|---|
| Bert | 54.6 (54,0) / 75.4 (74,5) | 55.1 (54.1) / 75.2 (74,3) |
| Ernie | 54.3 (53.9) / 75.3 (74.6) | 55.0 (53.9) / 75.0 (73,9) |
| Bert-wwm | 54.7 (54,0) / 75.2 (74,8) | 55.1 (54.1) / 75.4 (74.4) |
| Bert-wwm-ext | 55.6 (54.8) / 76.0 (75,3) | 55.6 (54,9) / 75,8 (75,0) |
| Roberta-wwm-ext | 58,7 (57,6) / 79.1 (78.3) | 59,0 (57,8) / 79,0 (78,0) |
| Roberta-Wwm-Ext-Large | 62.1 (61.1) / 82.4 (81,6) | 62.4 (61.4) / 82.2 (81,0) |
Na tarefa de inferência de linguagem natural, adotamos dados XNLI , que exigem que o texto seja dividido em três categorias: entailment , neutral e contradictory . O indicador de avaliação é: precisão
| Modelo | Conjunto de desenvolvimento | Conjunto de testes |
|---|---|---|
| Bert | 77,8 (77.4) | 77,8 (77,5) |
| Ernie | 79,7 (79,4) | 78.6 (78.2) |
| Bert-wwm | 79,0 (78.4) | 78.2 (78.0) |
| Bert-wwm-ext | 79.4 (78.6) | 78.7 (78.3) |
| Roberta-wwm-ext | 80.0 (79.2) | 78,8 (78.3) |
| Roberta-Wwm-Ext-Large | 82.1 (81.3) | 81.2 (80,6) |
Na tarefa de análise de sentimentos, o conjunto de dados de classificação de emoção binária ChnsEnticorp. O indicador de avaliação é: precisão
| Modelo | Conjunto de desenvolvimento | Conjunto de testes |
|---|---|---|
| Bert | 94,7 (94,3) | 95,0 (94,7) |
| Ernie | 95.4 (94,8) | 95.4 (95,3) |
| Bert-wwm | 95.1 (94,5) | 95.4 (95.0) |
| Bert-wwm-ext | 95.4 (94.6) | 95.3 (94.7) |
| Roberta-wwm-ext | 95.0 (94,6) | 95.6 (94,8) |
| Roberta-Wwm-Ext-Large | 95,8 (94,9) | 95,8 (94,9) |
Os dois conjuntos de dados a seguir precisam classificar um par de frases para determinar se a semântica das duas frases são as mesmas (tarefa de classificação binária).
O LCQMC foi lançado pelo Centro de Pesquisa de Computação Inteligente do Instituto de Tecnologia de Harbin, Shenzhen Graduate School. O indicador de avaliação é: precisão
| Modelo | Conjunto de desenvolvimento | Conjunto de testes |
|---|---|---|
| Bert | 89,4 (88,4) | 86,9 (86,4) |
| Ernie | 89,8 (89,6) | 87.2 (87,0) |
| Bert-wwm | 89.4 (89,2) | 87.0 (86,8) |
| Bert-wwm-ext | 89,6 (89,2) | 87.1 (86,6) |
| Roberta-wwm-ext | 89,0 (88,7) | 86.4 (86.1) |
| Roberta-Wwm-Ext-Large | 90.4 (90.0) | 87.0 (86,8) |
O BQ Corpus é divulgado pelo Centro de Pesquisa de Computação Inteligente do Instituto de Tecnologia Harbin Shenzhen Graduate School e é um conjunto de dados para o campo bancário. O indicador de avaliação é: precisão
| Modelo | Conjunto de desenvolvimento | Conjunto de testes |
|---|---|---|
| Bert | 86.0 (85,5) | 84,8 (84,6) |
| Ernie | 86,3 (85,5) | 85,0 (84,6) |
| Bert-wwm | 86.1 (85.6) | 85,2 (84,9) |
| Bert-wwm-ext | 86,4 (85,5) | 85,3 (84,8) |
| Roberta-wwm-ext | 86.0 (85,4) | 85,0 (84,6) |
| Roberta-Wwm-Ext-Large | 86,3 (85,7) | 85,8 (84,9) |
Para tarefas de classificação de texto no nível do capítulo, selecionamos o THUCNEWS, um conjunto de dados de notícias divulgado pelo Laboratório de Processamento de Linguagem Natural da Universidade de Tsinghua. Estamos pegando um dos subconjuntos e precisamos dividir as notícias em uma das 10 categorias. O indicador de avaliação é: precisão
| Modelo | Conjunto de desenvolvimento | Conjunto de testes |
|---|---|---|
| Bert | 97,7 (97.4) | 97,8 (97,6) |
| Ernie | 97,6 (97,3) | 97,5 (97,3) |
| Bert-wwm | 98.0 (97,6) | 97,8 (97,6) |
| Bert-wwm-ext | 97,7 (97,5) | 97,7 (97,5) |
| Roberta-wwm-ext | 98.3 (97,9) | 97,7 (97,5) |
| Roberta-Wwm-Ext-Large | 98.3 (97,7) | 97,8 (97,6) |
A seguir, são apresentados os resultados experimentais em várias tarefas de PNL e apenas a comparação dos resultados do conjunto de testes é fornecida na tabela.
| Modelo | CMRC 2018 | Drcd | Xnli | Csc | LCQMC | BQ | média | Quantidade de parâmetro |
|---|---|---|---|---|---|---|---|---|
| Roberta-Wwm-Ext-Large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325m |
| Roberta-wwm-ext | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102m |
| Rbtl3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61m (59,8%) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38m (37,3%) |
Comparação de efeitos relativos:
| Modelo | CMRC 2018 | Drcd | Xnli | Csc | LCQMC | BQ | média | Média de classificação |
|---|---|---|---|---|---|---|---|---|
| Roberta-Wwm-Ext-Large | 102,2% / 101,3% | 104,7% / 102,7% | 103,0% | 100,2% | 100,7% | 100,9% | 101,9% | 101,2% |
| Roberta-wwm-ext | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| Rbtl3 | 87,2% / 93,3% | 90,2% / 93,0% | 93,9% | 98,5% | 98,5% | 98,4% | 94,3% | 97,35% |
| RBT3 | 85,7% / 91,5% | 87,6% / 91,2% | 91,8% | 97,1% | 98,5% | 98,0% | 92,9% | 96,35% |
Bem-vindo ao pequeno modelo de modelo pré-treinado chinês com melhores resultados: https://github.com/iflytek/minirbt
BERT ou outros modelos) e precisa ser ajustado de acordo com a tarefa de destino.ERNIE é bem diferente de BERT / BERT-wwm ; portanto, certifique-se de ajustar a taxa de aprendizado ao usar ERNIE (com base nos resultados experimentais acima, a taxa de aprendizado inicial exigida por ERNIE é relativamente alta).BERT / BERT-wwm usa dados da Wikipedia para treinamento, eles são melhores para modelar textos formais; Enquanto ERNIE usa dados adicionais de rede, como Baidu Tieba e Zhi, que têm vantagens na modelagem de textos informais (como o Weibo, etc.).BERT e BERT-wwm têm melhores resultados.BERT ou BERT-wwm . Porque descobrimos que quase não existe chinês tradicional na lista de vocabulário de ERNIE . Para facilitar todos para baixar, traga o modelo inglês BERT-large (wwm) lançado oficialmente pelo Google :
BERT-Large, Uncased (Whole Word Masking) : parâmetros de 24 camadas, 1024-Hidden, 16 cabeças, 340m
BERT-Large, Cased (Whole Word Masking) : parâmetros de 24 camadas, 1024-Hidden, 16 cabeças, 340m
P: Como usar este modelo?
R: Como usar o Bert chinês lançado pelo Google, como usar isso. O texto não precisa passar pela segmentação de palavras e o WWM afeta apenas o processo de pré-treinamento e não afeta a entrada de tarefas a jusante.
P: Existe algum código de pré-treinamento fornecido?
R: Infelizmente, não posso fornecer código relevante. Você pode se referir a #10 e #13 para implementação.
P: Onde baixar um determinado conjunto de dados?
A: Por favor, verifique o diretório data . README.md no diretório de tarefas indica a fonte de dados. Para conteúdo protegido por direitos autorais, pesquise sozinho ou entre em contato com o autor original para obter dados.
P: Haverá planos de lançar um modelo maior? Por exemplo, a versão Bert-Large WWM?
R: Se obtivermos melhores resultados do experimento, consideraremos lançar uma versão maior.
P: Você está mentindo! Não consegue reproduzir o resultado?
R: Na tarefa a jusante, adotamos o modelo mais simples. Por exemplo, para tarefas de classificação, usamos diretamente run_classifier.py (fornecido pelo Google). Se o valor médio não puder ser alcançado, significa que há um bug no próprio experimento. Por favor, verifique com cuidado. Existem muitos fatores aleatórios para o maior valor e não podemos garantir que podemos atingir o valor mais alto. Outro fator reconhecido: a redução do tamanho do lote reduzirá significativamente o efeito experimental. Para detalhes, consulte a edição relevante do diretório BERT e XLNET.
P: Vou obter melhores resultados do que você!
A: Parabéns.
P: Quanto tempo leva para treinar e que equipamento ele treinou?
R: O treinamento foi concluído na versão do Google TPU V3 (128G HBM). O treinamento BERT-WWM leva cerca de 1,5 dias, enquanto o Bert-WWM-EXT leva várias semanas (mais dados são usados para iterar mais). Deve-se notar que, durante o estágio de pré-treinamento, usamos LAMB Optimizer (implementação da versão TensorFlow). Este otimizador tem um bom suporte para lotes grandes. Ao ajustar as tarefas a jusante, usamos AdamWeightDecayOptimizer padrão de Bert.
P: Quem é Ernie?
R: O modelo Ernie neste projeto refere -se especificamente ao Ernie proposto pelo Baidu, em vez do Ernie publicado pela Universidade Tsinghua na ACL 2019.
P: O efeito do Bert-WWM não é muito bom em todas as tarefas
R: O objetivo deste projeto é fornecer aos pesquisadores modelos pré-treinados diversificados, selecionando livremente Bert, Ernie ou Bert-WWM. Fornecemos apenas dados experimentais e ainda precisamos tentar constantemente o nosso melhor em nossas próprias tarefas para tirar conclusões. Mais um modelo, mais uma opção.
P: Por que alguns conjuntos de dados não são tentados?
R: Para ser franco, não estou com vontade de encontrar mais dados; 2) eu não preciso; 3) Não tenho dinheiro;
P: Vamos avaliar brevemente esses modelos
R: Cada um tem seu próprio foco e seus próprios pontos fortes. A pesquisa e o desenvolvimento do processamento de linguagem natural chinês requer esforços conjuntos de todas as partes.
P: Qual é o nome do próximo modelo pré -terenciado que você prevê?
A: Talvez seja chamado Zoe. Zoe: incorporações zero-shot do modelo de linguagem
P: Mais detalhes sobre RoBERTa-wwm-ext ?
R: Integramos as vantagens de Roberta e Bert-WWM para fazer uma combinação natural dos dois. A diferença entre os modelos neste diretório é a seguinte:
1) Use a estratégia WWM para mascarar na fase de pré-treinamento (mas sem mascaramento dinâmico)
2) Basta cancelar a perda da previsão da frase na próxima frase (NSP)
3) Não use mais o modo de treinamento de max_len = 128 e depois max_len = 512, treinar diretamente max_len = 512
4) Estenda as etapas de treinamento adequadamente
Deve-se notar que esse modelo não é o modelo Roberta original, mas é apenas um modelo Bert treinado em um método semelhante de treinamento de Roberta, como Bert, semelhante a Roberta. Portanto, ao usar tarefas a jusante e converter modelos, processe -os em Bert, em vez de Roberta.
Se os recursos ou tecnologias deste projeto forem úteis para o seu trabalho de pesquisa, consulte o artigo a seguir no artigo.
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
O primeiro autor é parcialmente financiado pelo programa de nuvem de pesquisa da TPU do Google .
Este projeto não é o modelo chinês BERT-WWM lançado oficialmente pelo Google. Ao mesmo tempo, este projeto não é um produto oficial do Harbin Institute of Technology ou Iflytek. Os resultados experimentais apresentados no relatório técnico mostram apenas que o desempenho sob um conjunto de dados específico e a combinação de hiperparâmetro não representa a natureza de cada modelo. Os resultados experimentais podem mudar devido a sementes de número aleatório e dispositivos de computação. O conteúdo deste projeto é apenas para referência de pesquisa técnica e não é usada como base final. Os usuários podem usar o modelo a qualquer momento dentro do escopo da licença, mas não somos responsáveis por perdas diretas ou indiretas causadas pelo uso do conteúdo do projeto.
Bem -vindo a seguir o relato oficial oficial do WeChat do Laboratório Conjunto de Iflytek para aprender sobre as mais recentes tendências técnicas.

Se você tiver alguma dúvida, envie -o no problema do GitHub.