Téléchargement MacBERT - Téléchargement du code source MacBERT

MacBERT

Autre code source

1.0.0

Télécharger

Chinois simplifié | Anglais

Ce répertoire contient ** le modèle pré-formé Macbert **, qui introduit une tâche de pré-entraînement du modèle de langage de masque corrigé d'erreur (MAC), atténuant le problème des tâches "pré-entraînement des tâches" ". Macbert a réalisé des améliorations de performances significatives sur une variété de tâches PNL.

Revisiter des modèles pré-formés pour le traitement du langage naturel chinois
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu
Publié dans les résultats de l'EMNLP 2020

Macbert chinois | Electra chinois | Xlnet chinois | Outil de distillation de connaissances TextBrewer | Modèle de coupe TextPruner

Plus de ressources publiées par HFL: https://github.com/ymcui/hfl-anthology

Nouvelles

2023/3/28 Open Source Chinese Llama & Alpaca Big Model, qui peut être rapidement déployé et expérimenté sur PC, Voir: https://github.com/ymcui/chinese-llama-alpaca

2022/3/30 a publié un nouveau modèle pré-entraîné PERT: https://github.com/ymcui/pert

2021/12/17 publié l'outil de recadrage du modèle TextPruner: https://github.com/airaria/textpruner

2021/10/24 a publié le premier modèle pré-entraîné pour les langues ethniques minoritaires: https://github.com/ymcui/chinese-miority-plm

2021/7/21 Le livre "Traitement du langage naturel: méthodes basées sur des modèles pré-formés" a été officiellement publié.

2020/11/3 Macbert chinois pré-entraîné a été libéré et sa méthode d'utilisation est la même que celle de Bert.

2020/9/15 Le document "Revisiter les modèles pré-formés pour le traitement du langage naturel chinois" a été embauché comme un long article par les résultats de l'EMNLP.

Table des matières

chapitre	décrire
Introduction	Bref introduction à Macbert
télécharger	Télécharger Macbert
Chargement rapide	Comment utiliser les transformateurs à charger rapidement les modèles
Effet de référence	Effets sur les tâches de PNL chinois
FAQ	Questions fréquemment posées
Citation	Informations sur la citation de l'article

Introduction

Macbert est une version améliorée de Bert, introduisant le modèle de langage de masque corrigé par erreur (MLM comme correction, Mac) de la tâche de pré-formation, atténuant le problème des "tâches pré-formation".

Dans le Mask Language Model (MLM), la balise [Masque] est introduite pour le masquage, mais la balise [Masque] n'apparaît pas dans les tâches en aval. À Macbert, nous utilisons des mots similaires pour remplacer la balise [Mask] . Des mots similaires sont obtenus par l'outil Synonymes Toolkit (Wang et Hu, 2017), et l'algorithme est calculé sur la base de Word2Vec (Mikolov et al., 2013). Dans le même temps, nous avons également introduit des technologies de masquage des mots entiers (WWM) et N-Gram. Lors du masquage de N-gram, nous recherchons des mots similaires pour chaque mot dans n-gram. Lorsqu'il n'y a pas de mots similaires à remplacer, nous utiliserons des mots aléatoires pour le remplacement.

Ce qui suit est un exemple de formation.

	exemple
Phrase originale	Nous utilisons un modèle de langue pour prédire la probabilité du mot suivant.
Mlm	Nous utilisons une langue [m] pour [m] ## di ## ct la capacité pro [m] ## du mot suivant.
Masquage de mot entier	Nous utilisons une langue [m] pour [m] [m] [m] le [m] [m] du mot suivant.
Masquage n-gram	Nous utilisons un [m] [m] pour [m] [m] le [m] [m] le mot [m] [m] [m] suivant.
MLM comme correction	Nous utilisons un système de texte pour ca ## lc ## ulate la capacité PO ## SI ## du mot suivant.

Le cadre principal de Macbert est exactement le même que Bert, permettant des transitions transparentes sans modifier le code existant.

Pour plus de détails, veuillez vous référer à notre article: Revisiter les modèles pré-formés pour le traitement chinois du langage naturel

télécharger

Fournit principalement des téléchargements de modèles pour la version TensorFlow 1.x.

MacBERT-large, Chinese : 24 couches, 1024, 16 têtes, 324 m de paramètres
MacBERT-base, Chinese : 12 couches, 768, 12 mètres, 102 m de paramètres

Modèle	Google Drive	Disque baidu	taille
`MacBERT-large, Chinese`	Tensorflow	TensorFlow (PW: Zejf)	1,2 g
`MacBERT-base, Chinese`	Tensorflow	TensorFlow (PW: 61GA)	383m

Version pytorch / tensorflow2

Si vous avez besoin de la version pytorch ou tensorflow2 du modèle:

Utilisez les transformateurs pour convertir
Ou téléchargez-le à partir de https://huggingface.co/hfl

Téléchargez les étapes (vous pouvez également cloner l'intégralité du répertoire directement à l'aide de Git):

Après être entré https://huggingface.co/hfl, sélectionnez un modèle Macbert, comme Macbert-Base: https://huggingface.co/hfl/chinese-macbert-base
Sélectionnez l'onglet "Fichiers et versions"
Cliquez sur le bin / json et d'autres fichiers que vous devez télécharger

Chargement rapide

Les modèles Macbert peuvent être chargés rapidement via Transformers.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Remarque: veuillez utiliser Berttokenzer et Bertmodel pour charger les modèles Macbert!

Le MODEL_NAME correspondant est le suivant:

Modèle d'origine	Nom de l'appel modèle
Macbert-grand	HFL / Chinese-Macbert-Garg
Macbert-base	HFL / Chinese-Macbert-base

Effet de référence

Voici une affichage de l'effet de Macbert sur 6 tâches en aval (voir l'article pour plus de résultats):

CMRC 2018 (Cui et al., 2019) : Compréhension de la lecture extraite (chinois simplifié)
DRCD (Shao et al., 2018) : Compréhension de la lecture extraite (chinois traditionnel)
XNLI (Conneau et al., 2018) : Inférence du langage naturel
Chnsenticorp : classification émotionnelle
LCQMC (Liu et al., 2018) : correspondance de paires de phrases
BQ Corpus (Chen et al., 2018) : correspondance de paires de phrases

Pour garantir la stabilité des résultats, nous donnons la valeur moyenne (entre parenthèses) et la valeur maximale des fonctions indépendantes 10 fois en même temps.

CMRC 2018

L'ensemble de données CMRC 2018 est les données chinoises de compréhension de la lecture des machines publiées par le Laboratoire conjoint de Harbin Institute of Technology. Selon une question donnée, le système doit extraire des fragments du chapitre comme réponse, sous la même forme que Squad. Les indicateurs d'évaluation sont: EM / F1

Modèle	Développement	Test	Défi	#Params
Bascule	65,5 (64,4) / 84,5 (84,0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)	102m
Bert-wwm	66.3 (65.0) / 85.6 (84,7)	70,5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43,9)	102m
Bert-wwm-	67.1 (65.6) / 85.7 (85,0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44,6)	102m
Roberta-wwm-ext	67,4 (66,5) / 87,2 (86,5)	72.6 (71.4) / 89.4 (88,8)	26.2 (24.6) / 51.0 (49.1)	102m
Base électra	68.4 (68.0) / 84.8 (84,6)	73.1 (72.7) / 87.1 (86.9)	22.6 (21,7) / 45.0 (43,8)	102m
Macbert-base	68,5 (67,3) / 87,9 (87,1)	73.2 (72.4) / 89.5 (89.2)	30.2 (26.4) / 54.0 (52.2)	102m
Électra-grand	69.1 (68.2) / 85.2 (84,5)	73.9 (72.8) / 87.1 (86.6)	23.0 (21.6) / 44.2 (43.2)	324m
ROBERTA-WWM-EXT-GARD	68,5 (67,6) / 88,4 (87,9)	74.2 (72,4) / 90,6 (90,0)	31.5 (30.1) / 60.1 (57,5)	324m
Macbert-grand	70,7 (68,6) / 88,9 (88,2)	74.8 (73.2) / 90.7 (90.1)	31.9 (29.6) / 60,2 (57,6)	324m

DRCD

L'ensemble de données DRCD a été publié par le Delta Research Institute, Taiwan, Chine. Sa forme est la même que l'escouade et est un ensemble de données de compréhension en lecture extrait basé sur le chinois traditionnel. Étant donné que les caractères chinois traditionnels sont supprimés d'Ernie, il n'est pas recommandé d'utiliser Ernie (ou de le convertir en chinois simplifié puis de le traiter) sur les données chinoises traditionnelles. Les indicateurs d'évaluation sont: EM / F1

Modèle	Développement	Test	#Params
Bascule	83.1 (82.7) / 89.9 (89,6)	82.2 (81.6) / 89.2 (88,8)	102m
Bert-wwm	84.3 (83.4) / 90,5 (90,2)	82.8 (81.8) / 89.7 (89.0)	102m
Bert-wwm-	85.0 (84,5) / 91.2 (90,9)	83.6 (83,0) / 90,4 (89,9)	102m
Roberta-wwm-ext	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91,7)	102m
Base électra	87,5 (87,0) / 92,5 (92,3)	86.9 (86.6) / 91.8 (91,7)	102m
Macbert-base	89.4 (89.2) / 94.3 (94.1)	89,5 (88,7) / 93,8 (93,5)	102m
Électra-grand	88.8 (88,7) / 93.3 (93.2)	88.8 (88.2) / 93.6 (93.2)	324m
ROBERTA-WWM-EXT-GARD	89.6 (89.1) / 94.8 (94,4)	89,6 (88,9) / 94,5 (94,1)	324m
Macbert-grand	91.2 (90,8) / 95.6 (95,3)	91.7 (90,9) / 95.6 (95,3)	324m

Xnli

Dans la tâche d'inférence du langage naturel, nous adoptons les données XNLI , qui nécessite que le texte soit divisé en trois catégories: entailment , neutral et contradictory . L'indicateur d'évaluation est: précision

Modèle	Développement	Test	#Params
Bascule	77.8 (77,4)	77,8 (77,5)	102m
Bert-wwm	79.0 (78.4)	78.2 (78.0)	102m
Bert-wwm-	79.4 (78,6)	78.7 (78,3)	102m
Roberta-wwm-ext	80.0 (79.2)	78.8 (78,3)	102m
Base électra	77.9 (77.0)	78,4 (77,8)	102m
Macbert-base	80.3 (79.7)	79.3 (78,8)	102m
Électra-grand	81,5 (80,8)	81.0 (80.9)	324m
ROBERTA-WWM-EXT-GARD	82.1 (81.3)	81.2 (80.6)	324m
Macbert-grand	82.4 (81.8)	81.3 (80,6)	324m

Chnsenticorp

Dans la tâche d'analyse des sentiments, l'ensemble de données de classification des émotions binaires Chnsenticorp. L'indicateur d'évaluation est: précision

Modèle	Développement	Test	#Params
Bascule	94.7 (94.3)	95.0 (94,7)	102m
Bert-wwm	95.1 (94,5)	95,4 (95,0)	102m
Bert-wwm-	95,4 (94,6)	95,3 (94,7)	102m
Roberta-wwm-ext	95.0 (94,6)	95,6 (94,8)	102m
Base électra	93.8 (93.0)	94,5 (93,5)	102m
Macbert-base	95.2 (94.8)	95,6 (94,9)	102m
Électra-grand	95.2 (94,6)	95,3 (94,8)	324m
ROBERTA-WWM-EXT-GARD	95,8 (94,9)	95,8 (94,9)	324m
Macbert-grand	95,7 (95,0)	95.9 (95.1)	324m

LCQMC

LCQMC a été publié par le Intelligent Computing Research Center de la Harbin Institute of Technology Shenzhen Graduate School. L'indicateur d'évaluation est: précision

Modèle	Développement	Test	#Params
Bert	89.4 (88.4)	86.9 (86.4)	102m
Bert-wwm	89.4 (89.2)	87.0 (86.8)	102m
Bert-wwm-	89.6 (89.2)	87.1 (86.6)	102m
Roberta-wwm-ext	89,0 (88,7)	86.4 (86.1)	102m
Base électra	90.2 (89.8)	87.6 (87.3)	102m
Macbert-base	89,5 (89,3)	87.0 (86,5)	102m
Électra-grand	90,7 (90,4)	87.3 (87.2)	324m
ROBERTA-WWM-EXT-GARD	90,4 (90,0)	87.0 (86.8)	324m
Macbert-grand	90,6 (90,3)	87.6 (87.1)	324m

Corpus BQ

BQ Corpus est publié par le Intelligent Computing Research Center de la Harbin Institute of Technology Shenzhen Graduate School et est un ensemble de données pour le domaine bancaire. L'indicateur d'évaluation est: précision

Modèle	Développement	Test	#Params
Bert	86.0 (85,5)	84,8 (84,6)	102m
Bert-wwm	86.1 (85.6)	85.2 (84.9)	102m
Bert-wwm-	86.4 (85,5)	85,3 (84,8)	102m
Roberta-wwm-ext	86.0 (85,4)	85,0 (84,6)	102m
Base électra	84.8 (84,7)	84,5 (84,0)	102m
Macbert-base	86.0 (85,5)	85.2 (84.9)	102m
Électra-grand	86.7 (86.2)	85.1 (84.8)	324m
ROBERTA-WWM-EXT-GARD	86.3 (85,7)	85,8 (84,9)	324m
Macbert-grand	86.2 (85,7)	85,6 (85,0)	324m

FAQ

Q1: Y a-t-il une version anglaise de Macbert?

A1: Aucun pour le moment.

Q2: Comment utiliser Macbert?

A2: Tout comme l'utilisation de Bert, il vous suffit de remplacer simplement le fichier et la configuration du modèle pour l'utiliser. Bien sûr, vous pouvez également former d'autres modèles pré-entraînés en chargeant notre modèle (c'est-à-dire l'initialisation de la section Transformers).

Q3: Pouvez-vous fournir le code de formation Macbert?

A3: Il n'y a pas encore de plan open source.

Q4: Puis-je le corpus pré-formé open source?

A4: Nous ne pouvons pas le corpus de formation open source car il n'y a pas de droit de rééditer en conséquence. Il existe des ressources de corpus chinois open source sur Github, auxquelles vous pouvez prêter plus d'attention et utiliser.

Q5: Y a-t-il des plans pour former Macbert sur un plus grand corpus et open source?

A5: Nous n'avons aucun plan pour le moment.

Citation

Si les ressources de ce projet sont utiles pour vos recherches, veuillez citer le document suivant.

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

ou:

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Remerciements

Merci à Google TPU Research Cloud (TFRC) pour son support informatique des ressources.

Remettre en question des commentaires

Si vous avez des questions, veuillez la soumettre dans le problème de GitHub.

Avant de soumettre la question, veuillez vérifier si la FAQ peut résoudre le problème. Il est également recommandé de vérifier si le problème précédent peut résoudre votre problème.
Les reproductions et les problèmes répétés non liés à ce projet seront traités par [Stable-Bot] (Retalie · GitHub Marketplace), veuillez comprendre.
Nous répondrons autant que possible à vos questions, mais nous ne pouvons garantir que vos questions seront répondues.
Posez des questions poliment et construisez une communauté de discussion harmonieuse.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-18
taille 134.22KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout