Chinês simplificado | Inglês

MacBert chinês | Electra chinês | Xlnet chinês | Ferramenta de destilação do conhecimento Textbrewer | Ferramenta de corte de modelos Princinente de texto
Mais recursos divulgados pela HFL: https://github.com/ymcui/hfl-anthology
2023/3/28 Llama chinesa de código aberto e modelo Alpaca, que pode ser rapidamente implantado e experimentado no PC, View: https://github.com/ymcui/chinese-llama-alpaca
2022/3/30 lançou um novo modelo pré-treinado Pert: https://github.com/ymcui/pert
2021/12/17 Liberou a ferramenta de corte de modelo TextPruner: https://github.com/airaria/textpruner
2021/10/24 lançou o primeiro modelo pré-treinado para idiomas de minorias étnicas: https://github.com/ymcui/chinese-minority-plm
2021/7/21 O livro "Processamento de linguagem natural: métodos baseados em modelos pré-treinados" foi publicado oficialmente.
2020/11/3 MacBert chinês pré-treinado foi lançado e seu método de uso é o mesmo que o de Bert.
2020/9/15 O artigo "Revisitando modelos pré-treinados para processamento de linguagem natural chinês" foi contratado como um longo artigo por descobertas da EMNLP.
| capítulo | descrever |
|---|---|
| Introdução | Breve introdução a MacBert |
| download | Baixe MacBert |
| Carregamento rápido | Como usar transformadores carregar modelos rapidamente |
| Efeito de linha de base | Efeitos nas tarefas de PNL chinesas |
| Perguntas frequentes | Perguntas frequentes |
| Citar | Informações sobre citação do artigo |
MacBert é uma versão aprimorada do BERT, introduzindo o modelo de linguagem de máscara corrigido por erro (MLM como correção, Mac), tarefa de pré-treinamento, aliviando o problema de "tarefas de pré-treinamento para baixo".
No modelo de linguagem de máscara (MLM), a tag [Mask] é introduzida para mascaramento, mas a tag [Mask] não aparece em tarefas a jusante. Em MacBert, usamos palavras semelhantes para substituir a tag [Mask] . Palavras semelhantes são obtidas pela ferramenta Sinonyms Toolkit (Wang e Hu, 2017), e o algoritmo é calculado com base no Word2Vec (Mikolov et al., 2013). Ao mesmo tempo, também introduzimos as tecnologias de mascaramento de palavras inteiras (WWM) e n-gramas. Ao mascarar N-Gram, procuramos palavras semelhantes para cada palavra em n-grama. Quando não houver palavras semelhantes para substituir, usaremos palavras aleatórias para substituição.
A seguir, é apresentado um exemplo de amostra de treinamento.
| exemplo | |
|---|---|
| Frase original | Usamos um modelo de idioma para prever a probabilidade da próxima palavra. |
| Mlm | Usamos um idioma [m] para [m] ## di ## ct o pro [m] ## habilidade da próxima palavra. |
| Mascarar de palavra inteira | Usamos uma linguagem [m] para [m] [m] [m] o [m] [m] da próxima palavra. |
| N máscara de n-gramas | Utilizamos um [m] [m] para [m] [m] o [m] [m] o [m] [m] [m] Próxima palavra. |
| MLM como correção | Usamos um sistema de texto para CA ## LC ## ULATE O PO ## SI ## Capacidade da próxima palavra. |
A estrutura principal de MacBert é exatamente a mesma que Bert, permitindo transições perfeitas sem modificar o código existente.
Para mais detalhes, consulte o nosso artigo: revisitando modelos pré-treinados para processamento de linguagem natural chinês
Fornece principalmente downloads de modelo para o TensorFlow 1.x versão.
MacBERT-large, Chinese : parâmetros de 24 camadas, 1024-Hidden, 16 cabeças, 324mMacBERT-base, Chinese : 12 camadas, 768 parâmetros de 12 cabeças, 102m| Modelo | Google Drive | Disco Baidu | tamanho |
|---|---|---|---|
MacBERT-large, Chinese | Tensorflow | Tensorflow (PW: ZEJF) | 1.2g |
MacBERT-base, Chinese | Tensorflow | Tensorflow (PW: 61Ga) | 383m |
Se você precisar da versão Pytorch ou TensorFlow2 do modelo:
Baixe as etapas (você também pode clonar o diretório inteiro diretamente usando o Git):
Os modelos MacBert podem ser carregados rapidamente através de transformadores.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
NOTA: Por favor, use o BertTokenizer e o Bertmodel para carregar os modelos MacBert!
O correspondente MODEL_NAME é o seguinte:
| Modelo original | Nome da chamada do modelo |
|---|---|
| MacBert-Large | HFL/Chinês-Macbert-Large |
| MacBert-Base | HFL/chinês-Macbert-Base |
Aqui está uma exibição do efeito de MacBert em 6 tarefas a jusante (consulte o artigo para obter mais resultados):
Para garantir a estabilidade dos resultados, fornecemos o valor médio (entre parênteses) e o valor máximo das execuções independentes 10 vezes ao mesmo tempo.
O conjunto de dados do CMRC 2018 são os dados de compreensão de leitura de máquina chinesa divulgados pelo Laboratório Conjunto do Instituto de Tecnologia Harbin. De acordo com uma determinada pergunta, o sistema precisa extrair fragmentos do capítulo como a resposta, da mesma forma que o esquadrão. Os indicadores de avaliação são: em / f1
| Modelo | Desenvolvimento | Teste | Desafio | #Params |
|---|---|---|---|---|
| Bert-base | 65,5 (64,4) / 84.5 (84,0) | 70.0 (68.7) / 87.0 (86,3) | 18.6 (17.0) / 43.3 (41,3) | 102m |
| Bert-wwm | 66,3 (65,0) / 85.6 (84,7) | 70,5 (69.1) / 87,4 (86,7) | 21.0 (19.3) / 47.0 (43.9) | 102m |
| Bert-wwm-ext | 67.1 (65.6) / 85.7 (85,0) | 71.4 (70.0) / 87,7 (87,0) | 24.0 (20.0) / 47.3 (44.6) | 102m |
| Roberta-wwm-ext | 67.4 (66,5) / 87.2 (86,5) | 72.6 (71.4) / 89.4 (88,8) | 26.2 (24.6) / 51.0 (49.1) | 102m |
| Electra-Base | 68.4 (68.0) / 84.8 (84,6) | 73.1 (72.7) / 87.1 (86,9) | 22.6 (21.7) / 45.0 (43,8) | 102m |
| MacBert-Base | 68,5 (67,3) / 87.9 (87.1) | 73.2 (72,4) / 89,5 (89.2) | 30.2 (26.4) / 54.0 (52.2) | 102m |
| Electra-grande | 69.1 (68.2) / 85.2 (84,5) | 73.9 (72.8) / 87.1 (86,6) | 23.0 (21.6) / 44.2 (43.2) | 324m |
| Roberta-Wwm-Ext-Large | 68,5 (67,6) / 88.4 (87,9) | 74.2 (72,4) / 90.6 (90,0) | 31.5 (30.1) / 60.1 (57,5) | 324m |
| MacBert-Large | 70.7 (68.6) / 88.9 (88.2) | 74.8 (73.2) / 90.7 (90.1) | 31.9 (29.6) / 60.2 (57,6) | 324m |
O conjunto de dados DRCD foi lançado pelo Delta Research Institute, Taiwan, China. Sua forma é a mesma do esquadrão e é um conjunto de dados de compreensão de leitura extraído baseado no chinês tradicional. Como os caracteres chineses tradicionais são removidos de Ernie, não é recomendável usar Ernie (ou convertê -lo em chinês simplificado e depois processá -lo) nos dados tradicionais chineses. Os indicadores de avaliação são: em / f1
| Modelo | Desenvolvimento | Teste | #Params |
|---|---|---|---|
| Bert-base | 83.1 (82.7) / 89,9 (89,6) | 82.2 (81,6) / 89.2 (88,8) | 102m |
| Bert-wwm | 84,3 (83,4) / 90,5 (90,2) | 82,8 (81,8) / 89,7 (89,0) | 102m |
| Bert-wwm-ext | 85,0 (84,5) / 91.2 (90,9) | 83.6 (83,0) / 90,4 (89,9) | 102m |
| Roberta-wwm-ext | 86,6 (85,9) / 92,5 (92.2) | 85,6 (85.2) / 92.0 (91,7) | 102m |
| Electra-Base | 87,5 (87,0) / 92,5 (92,3) | 86,9 (86,6) / 91,8 (91,7) | 102m |
| MacBert-Base | 89,4 (89.2) / 94.3 (94.1) | 89,5 (88,7) / 93,8 (93,5) | 102m |
| Electra-grande | 88,8 (88,7) / 93.3 (93.2) | 88,8 (88.2) / 93.6 (93.2) | 324m |
| Roberta-Wwm-Ext-Large | 89,6 (89.1) / 94.8 (94,4) | 89,6 (88,9) / 94.5 (94.1) | 324m |
| MacBert-Large | 91.2 (90,8) / 95.6 (95,3) | 91.7 (90.9) / 95.6 (95,3) | 324m |
Na tarefa de inferência de linguagem natural, adotamos dados XNLI , que exigem que o texto seja dividido em três categorias: entailment , neutral e contradictory . O indicador de avaliação é: precisão
| Modelo | Desenvolvimento | Teste | #Params |
|---|---|---|---|
| Bert-base | 77,8 (77.4) | 77,8 (77,5) | 102m |
| Bert-wwm | 79,0 (78.4) | 78.2 (78.0) | 102m |
| Bert-wwm-ext | 79.4 (78.6) | 78.7 (78.3) | 102m |
| Roberta-wwm-ext | 80.0 (79.2) | 78,8 (78.3) | 102m |
| Electra-Base | 77.9 (77.0) | 78.4 (77,8) | 102m |
| MacBert-Base | 80,3 (79,7) | 79.3 (78,8) | 102m |
| Electra-grande | 81,5 (80,8) | 81.0 (80,9) | 324m |
| Roberta-Wwm-Ext-Large | 82.1 (81.3) | 81.2 (80,6) | 324m |
| MacBert-Large | 82.4 (81,8) | 81,3 (80,6) | 324m |
Na tarefa de análise de sentimentos, o conjunto de dados de classificação de emoção binária ChnsEnticorp. O indicador de avaliação é: precisão
| Modelo | Desenvolvimento | Teste | #Params |
|---|---|---|---|
| Bert-base | 94,7 (94,3) | 95,0 (94,7) | 102m |
| Bert-wwm | 95.1 (94,5) | 95.4 (95.0) | 102m |
| Bert-wwm-ext | 95.4 (94.6) | 95.3 (94.7) | 102m |
| Roberta-wwm-ext | 95.0 (94,6) | 95.6 (94,8) | 102m |
| Electra-Base | 93.8 (93.0) | 94,5 (93,5) | 102m |
| MacBert-Base | 95.2 (94,8) | 95.6 (94,9) | 102m |
| Electra-grande | 95.2 (94,6) | 95.3 (94,8) | 324m |
| Roberta-Wwm-Ext-Large | 95,8 (94,9) | 95,8 (94,9) | 324m |
| MacBert-Large | 95,7 (95,0) | 95.9 (95.1) | 324m |
O LCQMC foi lançado pelo Centro de Pesquisa de Computação Inteligente do Instituto de Tecnologia de Harbin, Shenzhen Graduate School. O indicador de avaliação é: precisão
| Modelo | Desenvolvimento | Teste | #Params |
|---|---|---|---|
| Bert | 89,4 (88,4) | 86,9 (86,4) | 102m |
| Bert-wwm | 89.4 (89,2) | 87.0 (86,8) | 102m |
| Bert-wwm-ext | 89,6 (89,2) | 87.1 (86,6) | 102m |
| Roberta-wwm-ext | 89,0 (88,7) | 86.4 (86.1) | 102m |
| Electra-Base | 90.2 (89,8) | 87,6 (87,3) | 102m |
| MacBert-Base | 89,5 (89,3) | 87,0 (86,5) | 102m |
| Electra-grande | 90,7 (90,4) | 87,3 (87.2) | 324m |
| Roberta-Wwm-Ext-Large | 90.4 (90.0) | 87.0 (86,8) | 324m |
| MacBert-Large | 90,6 (90,3) | 87.6 (87.1) | 324m |
O BQ Corpus é divulgado pelo Centro de Pesquisa de Computação Inteligente do Instituto de Tecnologia Harbin Shenzhen Graduate School e é um conjunto de dados para o campo bancário. O indicador de avaliação é: precisão
| Modelo | Desenvolvimento | Teste | #Params |
|---|---|---|---|
| Bert | 86.0 (85,5) | 84,8 (84,6) | 102m |
| Bert-wwm | 86.1 (85.6) | 85,2 (84,9) | 102m |
| Bert-wwm-ext | 86,4 (85,5) | 85,3 (84,8) | 102m |
| Roberta-wwm-ext | 86.0 (85,4) | 85,0 (84,6) | 102m |
| Electra-Base | 84,8 (84,7) | 84,5 (84,0) | 102m |
| MacBert-Base | 86.0 (85,5) | 85,2 (84,9) | 102m |
| Electra-grande | 86,7 (86.2) | 85.1 (84,8) | 324m |
| Roberta-Wwm-Ext-Large | 86,3 (85,7) | 85,8 (84,9) | 324m |
| MacBert-Large | 86.2 (85,7) | 85,6 (85,0) | 324m |
Q1: Existe uma versão em inglês de MacBert?
A1: Nenhum no momento.
Q2: Como usar o MacBert?
A2: Assim como o BERT, você só precisa simplesmente substituir o arquivo e a configuração do modelo para usá -lo. Obviamente, você também pode treinar ainda mais outros modelos pré -tenhados carregando nosso modelo (ou seja, inicializando a seção Transformadores).
Q3: Você pode fornecer o Código de Treinamento MacBert?
A3: Ainda não há plano de código aberto.
Q4: Posso abrir o corpus pré-treinado?
A4: Não podemos ser o corpus de treinamento de código aberto porque não há direito de relançar de acordo. Existem alguns recursos de corpus chinês de código aberto no Github, que você pode prestar mais atenção e usar.
Q5: Existem planos de treinar MacBert em um corpus maior e de código aberto?
A5: Não temos planos para o tempo.
Se os recursos deste projeto forem úteis para sua pesquisa, cite o artigo a seguir.
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
ou:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
Agradecemos ao Google TPU Research Cloud (TFRC) por seu suporte a recursos de computação.
Se você tiver alguma dúvida, envie -o no problema do GitHub.