MacBERT Download - MacBERT Código Fonte Download

MacBERT

Outro código-fonte

1.0.0

Baixar

Chinês simplificado | Inglês

Este diretório contém ** Modelo pré-treinado MacBert **, que introduz uma tarefa de pré-treinamento de Modelo de Linguagem de Máscara Corrigida (MAC) corrigida, aliviando o problema de inconsistência "tarefas de pré-treinamento para baixo para baixo". MacBert alcançou melhorias significativas de desempenho em uma variedade de tarefas de PNL.

Revisitando modelos pré-treinados para processamento de linguagem natural chinês
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu
Publicado em descobertas do EMNLP 2020

MacBert chinês | Electra chinês | Xlnet chinês | Ferramenta de destilação do conhecimento Textbrewer | Ferramenta de corte de modelos Princinente de texto

Mais recursos divulgados pela HFL: https://github.com/ymcui/hfl-anthology

Notícias

2023/3/28 Llama chinesa de código aberto e modelo Alpaca, que pode ser rapidamente implantado e experimentado no PC, View: https://github.com/ymcui/chinese-llama-alpaca

2022/3/30 lançou um novo modelo pré-treinado Pert: https://github.com/ymcui/pert

2021/12/17 Liberou a ferramenta de corte de modelo TextPruner: https://github.com/airaria/textpruner

2021/10/24 lançou o primeiro modelo pré-treinado para idiomas de minorias étnicas: https://github.com/ymcui/chinese-minority-plm

2021/7/21 O livro "Processamento de linguagem natural: métodos baseados em modelos pré-treinados" foi publicado oficialmente.

2020/11/3 MacBert chinês pré-treinado foi lançado e seu método de uso é o mesmo que o de Bert.

2020/9/15 O artigo "Revisitando modelos pré-treinados para processamento de linguagem natural chinês" foi contratado como um longo artigo por descobertas da EMNLP.

Índice

capítulo	descrever
Introdução	Breve introdução a MacBert
download	Baixe MacBert
Carregamento rápido	Como usar transformadores carregar modelos rapidamente
Efeito de linha de base	Efeitos nas tarefas de PNL chinesas
Perguntas frequentes	Perguntas frequentes
Citar	Informações sobre citação do artigo

Introdução

MacBert é uma versão aprimorada do BERT, introduzindo o modelo de linguagem de máscara corrigido por erro (MLM como correção, Mac), tarefa de pré-treinamento, aliviando o problema de "tarefas de pré-treinamento para baixo".

No modelo de linguagem de máscara (MLM), a tag [Mask] é introduzida para mascaramento, mas a tag [Mask] não aparece em tarefas a jusante. Em MacBert, usamos palavras semelhantes para substituir a tag [Mask] . Palavras semelhantes são obtidas pela ferramenta Sinonyms Toolkit (Wang e Hu, 2017), e o algoritmo é calculado com base no Word2Vec (Mikolov et al., 2013). Ao mesmo tempo, também introduzimos as tecnologias de mascaramento de palavras inteiras (WWM) e n-gramas. Ao mascarar N-Gram, procuramos palavras semelhantes para cada palavra em n-grama. Quando não houver palavras semelhantes para substituir, usaremos palavras aleatórias para substituição.

A seguir, é apresentado um exemplo de amostra de treinamento.

	exemplo
Frase original	Usamos um modelo de idioma para prever a probabilidade da próxima palavra.
Mlm	Usamos um idioma [m] para [m] ## di ## ct o pro [m] ## habilidade da próxima palavra.
Mascarar de palavra inteira	Usamos uma linguagem [m] para [m] [m] [m] o [m] [m] da próxima palavra.
N máscara de n-gramas	Utilizamos um [m] [m] para [m] [m] o [m] [m] o [m] [m] [m] Próxima palavra.
MLM como correção	Usamos um sistema de texto para CA ## LC ## ULATE O PO ## SI ## Capacidade da próxima palavra.

A estrutura principal de MacBert é exatamente a mesma que Bert, permitindo transições perfeitas sem modificar o código existente.

Para mais detalhes, consulte o nosso artigo: revisitando modelos pré-treinados para processamento de linguagem natural chinês

download

Fornece principalmente downloads de modelo para o TensorFlow 1.x versão.

MacBERT-large, Chinese : parâmetros de 24 camadas, 1024-Hidden, 16 cabeças, 324m
MacBERT-base, Chinese : 12 camadas, 768 parâmetros de 12 cabeças, 102m

Modelo	Google Drive	Disco Baidu	tamanho
`MacBERT-large, Chinese`	Tensorflow	Tensorflow (PW: ZEJF)	1.2g
`MacBERT-base, Chinese`	Tensorflow	Tensorflow (PW: 61Ga)	383m

Versão pytorch/tensorflow2

Se você precisar da versão Pytorch ou TensorFlow2 do modelo:

Use transformadores para converter
Ou faça o download de https://huggingface.co/hfl

Baixe as etapas (você também pode clonar o diretório inteiro diretamente usando o Git):

Depois de entrar em https://huggingface.co/hfl, selecione um modelo MacBert, como MacBert-Base: https://huggingface.co/hfl/chinese-macbert-base
Selecione a guia "Arquivos e versões"
Clique no bin/json e em outros arquivos que você precisa baixar

Carregamento rápido

Os modelos MacBert podem ser carregados rapidamente através de transformadores.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

NOTA: Por favor, use o BertTokenizer e o Bertmodel para carregar os modelos MacBert!

O correspondente MODEL_NAME é o seguinte:

Modelo original	Nome da chamada do modelo
MacBert-Large	HFL/Chinês-Macbert-Large
MacBert-Base	HFL/chinês-Macbert-Base

Efeito de linha de base

Aqui está uma exibição do efeito de MacBert em 6 tarefas a jusante (consulte o artigo para obter mais resultados):

CMRC 2018 (Cui et al., 2019) : Compreensão de leitura extraída (chinês simplificado)
DRCD (Shao et al., 2018) : Compreensão de leitura extraída (chinês tradicional)
XNLI (Conneaund et al., 2018) : Inferência de linguagem natural
CHNSENTICORP : Classificação emocional
LCQMC (Liu et al., 2018) : Comparação de pares de frases
BQ Corpus (Chen et al., 2018) : Comparação de pares de frases

Para garantir a estabilidade dos resultados, fornecemos o valor médio (entre parênteses) e o valor máximo das execuções independentes 10 vezes ao mesmo tempo.

CMRC 2018

O conjunto de dados do CMRC 2018 são os dados de compreensão de leitura de máquina chinesa divulgados pelo Laboratório Conjunto do Instituto de Tecnologia Harbin. De acordo com uma determinada pergunta, o sistema precisa extrair fragmentos do capítulo como a resposta, da mesma forma que o esquadrão. Os indicadores de avaliação são: em / f1

Modelo	Desenvolvimento	Teste	Desafio	#Params
Bert-base	65,5 (64,4) / 84.5 (84,0)	70.0 (68.7) / 87.0 (86,3)	18.6 (17.0) / 43.3 (41,3)	102m
Bert-wwm	66,3 (65,0) / 85.6 (84,7)	70,5 (69.1) / 87,4 (86,7)	21.0 (19.3) / 47.0 (43.9)	102m
Bert-wwm-ext	67.1 (65.6) / 85.7 (85,0)	71.4 (70.0) / 87,7 (87,0)	24.0 (20.0) / 47.3 (44.6)	102m
Roberta-wwm-ext	67.4 (66,5) / 87.2 (86,5)	72.6 (71.4) / 89.4 (88,8)	26.2 (24.6) / 51.0 (49.1)	102m
Electra-Base	68.4 (68.0) / 84.8 (84,6)	73.1 (72.7) / 87.1 (86,9)	22.6 (21.7) / 45.0 (43,8)	102m
MacBert-Base	68,5 (67,3) / 87.9 (87.1)	73.2 (72,4) / 89,5 (89.2)	30.2 (26.4) / 54.0 (52.2)	102m
Electra-grande	69.1 (68.2) / 85.2 (84,5)	73.9 (72.8) / 87.1 (86,6)	23.0 (21.6) / 44.2 (43.2)	324m
Roberta-Wwm-Ext-Large	68,5 (67,6) / 88.4 (87,9)	74.2 (72,4) / 90.6 (90,0)	31.5 (30.1) / 60.1 (57,5)	324m
MacBert-Large	70.7 (68.6) / 88.9 (88.2)	74.8 (73.2) / 90.7 (90.1)	31.9 (29.6) / 60.2 (57,6)	324m

Drcd

O conjunto de dados DRCD foi lançado pelo Delta Research Institute, Taiwan, China. Sua forma é a mesma do esquadrão e é um conjunto de dados de compreensão de leitura extraído baseado no chinês tradicional. Como os caracteres chineses tradicionais são removidos de Ernie, não é recomendável usar Ernie (ou convertê -lo em chinês simplificado e depois processá -lo) nos dados tradicionais chineses. Os indicadores de avaliação são: em / f1

Modelo	Desenvolvimento	Teste	#Params
Bert-base	83.1 (82.7) / 89,9 (89,6)	82.2 (81,6) / 89.2 (88,8)	102m
Bert-wwm	84,3 (83,4) / 90,5 (90,2)	82,8 (81,8) / 89,7 (89,0)	102m
Bert-wwm-ext	85,0 (84,5) / 91.2 (90,9)	83.6 (83,0) / 90,4 (89,9)	102m
Roberta-wwm-ext	86,6 (85,9) / 92,5 (92.2)	85,6 (85.2) / 92.0 (91,7)	102m
Electra-Base	87,5 (87,0) / 92,5 (92,3)	86,9 (86,6) / 91,8 (91,7)	102m
MacBert-Base	89,4 (89.2) / 94.3 (94.1)	89,5 (88,7) / 93,8 (93,5)	102m
Electra-grande	88,8 (88,7) / 93.3 (93.2)	88,8 (88.2) / 93.6 (93.2)	324m
Roberta-Wwm-Ext-Large	89,6 (89.1) / 94.8 (94,4)	89,6 (88,9) / 94.5 (94.1)	324m
MacBert-Large	91.2 (90,8) / 95.6 (95,3)	91.7 (90.9) / 95.6 (95,3)	324m

Xnli

Na tarefa de inferência de linguagem natural, adotamos dados XNLI , que exigem que o texto seja dividido em três categorias: entailment , neutral e contradictory . O indicador de avaliação é: precisão

Modelo	Desenvolvimento	Teste	#Params
Bert-base	77,8 (77.4)	77,8 (77,5)	102m
Bert-wwm	79,0 (78.4)	78.2 (78.0)	102m
Bert-wwm-ext	79.4 (78.6)	78.7 (78.3)	102m
Roberta-wwm-ext	80.0 (79.2)	78,8 (78.3)	102m
Electra-Base	77.9 (77.0)	78.4 (77,8)	102m
MacBert-Base	80,3 (79,7)	79.3 (78,8)	102m
Electra-grande	81,5 (80,8)	81.0 (80,9)	324m
Roberta-Wwm-Ext-Large	82.1 (81.3)	81.2 (80,6)	324m
MacBert-Large	82.4 (81,8)	81,3 (80,6)	324m

CHNSENTICORP

Na tarefa de análise de sentimentos, o conjunto de dados de classificação de emoção binária ChnsEnticorp. O indicador de avaliação é: precisão

Modelo	Desenvolvimento	Teste	#Params
Bert-base	94,7 (94,3)	95,0 (94,7)	102m
Bert-wwm	95.1 (94,5)	95.4 (95.0)	102m
Bert-wwm-ext	95.4 (94.6)	95.3 (94.7)	102m
Roberta-wwm-ext	95.0 (94,6)	95.6 (94,8)	102m
Electra-Base	93.8 (93.0)	94,5 (93,5)	102m
MacBert-Base	95.2 (94,8)	95.6 (94,9)	102m
Electra-grande	95.2 (94,6)	95.3 (94,8)	324m
Roberta-Wwm-Ext-Large	95,8 (94,9)	95,8 (94,9)	324m
MacBert-Large	95,7 (95,0)	95.9 (95.1)	324m

LCQMC

O LCQMC foi lançado pelo Centro de Pesquisa de Computação Inteligente do Instituto de Tecnologia de Harbin, Shenzhen Graduate School. O indicador de avaliação é: precisão

Modelo	Desenvolvimento	Teste	#Params
Bert	89,4 (88,4)	86,9 (86,4)	102m
Bert-wwm	89.4 (89,2)	87.0 (86,8)	102m
Bert-wwm-ext	89,6 (89,2)	87.1 (86,6)	102m
Roberta-wwm-ext	89,0 (88,7)	86.4 (86.1)	102m
Electra-Base	90.2 (89,8)	87,6 (87,3)	102m
MacBert-Base	89,5 (89,3)	87,0 (86,5)	102m
Electra-grande	90,7 (90,4)	87,3 (87.2)	324m
Roberta-Wwm-Ext-Large	90.4 (90.0)	87.0 (86,8)	324m
MacBert-Large	90,6 (90,3)	87.6 (87.1)	324m

BQ Corpus

O BQ Corpus é divulgado pelo Centro de Pesquisa de Computação Inteligente do Instituto de Tecnologia Harbin Shenzhen Graduate School e é um conjunto de dados para o campo bancário. O indicador de avaliação é: precisão

Modelo	Desenvolvimento	Teste	#Params
Bert	86.0 (85,5)	84,8 (84,6)	102m
Bert-wwm	86.1 (85.6)	85,2 (84,9)	102m
Bert-wwm-ext	86,4 (85,5)	85,3 (84,8)	102m
Roberta-wwm-ext	86.0 (85,4)	85,0 (84,6)	102m
Electra-Base	84,8 (84,7)	84,5 (84,0)	102m
MacBert-Base	86.0 (85,5)	85,2 (84,9)	102m
Electra-grande	86,7 (86.2)	85.1 (84,8)	324m
Roberta-Wwm-Ext-Large	86,3 (85,7)	85,8 (84,9)	324m
MacBert-Large	86.2 (85,7)	85,6 (85,0)	324m

Perguntas frequentes

Q1: Existe uma versão em inglês de MacBert?

A1: Nenhum no momento.

Q2: Como usar o MacBert?

A2: Assim como o BERT, você só precisa simplesmente substituir o arquivo e a configuração do modelo para usá -lo. Obviamente, você também pode treinar ainda mais outros modelos pré -tenhados carregando nosso modelo (ou seja, inicializando a seção Transformadores).

Q3: Você pode fornecer o Código de Treinamento MacBert?

A3: Ainda não há plano de código aberto.

Q4: Posso abrir o corpus pré-treinado?

A4: Não podemos ser o corpus de treinamento de código aberto porque não há direito de relançar de acordo. Existem alguns recursos de corpus chinês de código aberto no Github, que você pode prestar mais atenção e usar.

Q5: Existem planos de treinar MacBert em um corpus maior e de código aberto?

A5: Não temos planos para o tempo.

Citar

Se os recursos deste projeto forem úteis para sua pesquisa, cite o artigo a seguir.

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

ou:

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Agradecimentos

Agradecemos ao Google TPU Research Cloud (TFRC) por seu suporte a recursos de computação.

Pergunta feedback

Se você tiver alguma dúvida, envie -o no problema do GitHub.

Antes de enviar a pergunta, verifique se as perguntas frequentes podem resolver o problema. Também é recomendável verificar se o problema anterior pode resolver seu problema.
Reproduções repetidas e questões não relacionadas a este projeto serão processadas por [estável-bot] (Stale · Github Marketplace), entenda.
Vamos responder às suas perguntas o máximo possível, mas não podemos garantir que suas perguntas serão respondidas.
Faça perguntas educadamente e construa uma comunidade de discussão harmoniosa.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 134.22KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos