Chinois simplifié | Anglais

Macbert chinois | Electra chinois | Xlnet chinois | Outil de distillation de connaissances TextBrewer | Modèle de coupe TextPruner
Plus de ressources publiées par HFL: https://github.com/ymcui/hfl-anthology
2023/3/28 Open Source Chinese Llama & Alpaca Big Model, qui peut être rapidement déployé et expérimenté sur PC, Voir: https://github.com/ymcui/chinese-llama-alpaca
2022/3/30 a publié un nouveau modèle pré-entraîné PERT: https://github.com/ymcui/pert
2021/12/17 publié l'outil de recadrage du modèle TextPruner: https://github.com/airaria/textpruner
2021/10/24 a publié le premier modèle pré-entraîné pour les langues ethniques minoritaires: https://github.com/ymcui/chinese-miority-plm
2021/7/21 Le livre "Traitement du langage naturel: méthodes basées sur des modèles pré-formés" a été officiellement publié.
2020/11/3 Macbert chinois pré-entraîné a été libéré et sa méthode d'utilisation est la même que celle de Bert.
2020/9/15 Le document "Revisiter les modèles pré-formés pour le traitement du langage naturel chinois" a été embauché comme un long article par les résultats de l'EMNLP.
| chapitre | décrire |
|---|---|
| Introduction | Bref introduction à Macbert |
| télécharger | Télécharger Macbert |
| Chargement rapide | Comment utiliser les transformateurs à charger rapidement les modèles |
| Effet de référence | Effets sur les tâches de PNL chinois |
| FAQ | Questions fréquemment posées |
| Citation | Informations sur la citation de l'article |
Macbert est une version améliorée de Bert, introduisant le modèle de langage de masque corrigé par erreur (MLM comme correction, Mac) de la tâche de pré-formation, atténuant le problème des "tâches pré-formation".
Dans le Mask Language Model (MLM), la balise [Masque] est introduite pour le masquage, mais la balise [Masque] n'apparaît pas dans les tâches en aval. À Macbert, nous utilisons des mots similaires pour remplacer la balise [Mask] . Des mots similaires sont obtenus par l'outil Synonymes Toolkit (Wang et Hu, 2017), et l'algorithme est calculé sur la base de Word2Vec (Mikolov et al., 2013). Dans le même temps, nous avons également introduit des technologies de masquage des mots entiers (WWM) et N-Gram. Lors du masquage de N-gram, nous recherchons des mots similaires pour chaque mot dans n-gram. Lorsqu'il n'y a pas de mots similaires à remplacer, nous utiliserons des mots aléatoires pour le remplacement.
Ce qui suit est un exemple de formation.
| exemple | |
|---|---|
| Phrase originale | Nous utilisons un modèle de langue pour prédire la probabilité du mot suivant. |
| Mlm | Nous utilisons une langue [m] pour [m] ## di ## ct la capacité pro [m] ## du mot suivant. |
| Masquage de mot entier | Nous utilisons une langue [m] pour [m] [m] [m] le [m] [m] du mot suivant. |
| Masquage n-gram | Nous utilisons un [m] [m] pour [m] [m] le [m] [m] le mot [m] [m] [m] suivant. |
| MLM comme correction | Nous utilisons un système de texte pour ca ## lc ## ulate la capacité PO ## SI ## du mot suivant. |
Le cadre principal de Macbert est exactement le même que Bert, permettant des transitions transparentes sans modifier le code existant.
Pour plus de détails, veuillez vous référer à notre article: Revisiter les modèles pré-formés pour le traitement chinois du langage naturel
Fournit principalement des téléchargements de modèles pour la version TensorFlow 1.x.
MacBERT-large, Chinese : 24 couches, 1024, 16 têtes, 324 m de paramètresMacBERT-base, Chinese : 12 couches, 768, 12 mètres, 102 m de paramètres| Modèle | Google Drive | Disque baidu | taille |
|---|---|---|---|
MacBERT-large, Chinese | Tensorflow | TensorFlow (PW: Zejf) | 1,2 g |
MacBERT-base, Chinese | Tensorflow | TensorFlow (PW: 61GA) | 383m |
Si vous avez besoin de la version pytorch ou tensorflow2 du modèle:
Téléchargez les étapes (vous pouvez également cloner l'intégralité du répertoire directement à l'aide de Git):
Les modèles Macbert peuvent être chargés rapidement via Transformers.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Remarque: veuillez utiliser Berttokenzer et Bertmodel pour charger les modèles Macbert!
Le MODEL_NAME correspondant est le suivant:
| Modèle d'origine | Nom de l'appel modèle |
|---|---|
| Macbert-grand | HFL / Chinese-Macbert-Garg |
| Macbert-base | HFL / Chinese-Macbert-base |
Voici une affichage de l'effet de Macbert sur 6 tâches en aval (voir l'article pour plus de résultats):
Pour garantir la stabilité des résultats, nous donnons la valeur moyenne (entre parenthèses) et la valeur maximale des fonctions indépendantes 10 fois en même temps.
L'ensemble de données CMRC 2018 est les données chinoises de compréhension de la lecture des machines publiées par le Laboratoire conjoint de Harbin Institute of Technology. Selon une question donnée, le système doit extraire des fragments du chapitre comme réponse, sous la même forme que Squad. Les indicateurs d'évaluation sont: EM / F1
| Modèle | Développement | Test | Défi | #Params |
|---|---|---|---|---|
| Bascule | 65,5 (64,4) / 84,5 (84,0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) | 102m |
| Bert-wwm | 66.3 (65.0) / 85.6 (84,7) | 70,5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43,9) | 102m |
| Bert-wwm- | 67.1 (65.6) / 85.7 (85,0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44,6) | 102m |
| Roberta-wwm-ext | 67,4 (66,5) / 87,2 (86,5) | 72.6 (71.4) / 89.4 (88,8) | 26.2 (24.6) / 51.0 (49.1) | 102m |
| Base électra | 68.4 (68.0) / 84.8 (84,6) | 73.1 (72.7) / 87.1 (86.9) | 22.6 (21,7) / 45.0 (43,8) | 102m |
| Macbert-base | 68,5 (67,3) / 87,9 (87,1) | 73.2 (72.4) / 89.5 (89.2) | 30.2 (26.4) / 54.0 (52.2) | 102m |
| Électra-grand | 69.1 (68.2) / 85.2 (84,5) | 73.9 (72.8) / 87.1 (86.6) | 23.0 (21.6) / 44.2 (43.2) | 324m |
| ROBERTA-WWM-EXT-GARD | 68,5 (67,6) / 88,4 (87,9) | 74.2 (72,4) / 90,6 (90,0) | 31.5 (30.1) / 60.1 (57,5) | 324m |
| Macbert-grand | 70,7 (68,6) / 88,9 (88,2) | 74.8 (73.2) / 90.7 (90.1) | 31.9 (29.6) / 60,2 (57,6) | 324m |
L'ensemble de données DRCD a été publié par le Delta Research Institute, Taiwan, Chine. Sa forme est la même que l'escouade et est un ensemble de données de compréhension en lecture extrait basé sur le chinois traditionnel. Étant donné que les caractères chinois traditionnels sont supprimés d'Ernie, il n'est pas recommandé d'utiliser Ernie (ou de le convertir en chinois simplifié puis de le traiter) sur les données chinoises traditionnelles. Les indicateurs d'évaluation sont: EM / F1
| Modèle | Développement | Test | #Params |
|---|---|---|---|
| Bascule | 83.1 (82.7) / 89.9 (89,6) | 82.2 (81.6) / 89.2 (88,8) | 102m |
| Bert-wwm | 84.3 (83.4) / 90,5 (90,2) | 82.8 (81.8) / 89.7 (89.0) | 102m |
| Bert-wwm- | 85.0 (84,5) / 91.2 (90,9) | 83.6 (83,0) / 90,4 (89,9) | 102m |
| Roberta-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91,7) | 102m |
| Base électra | 87,5 (87,0) / 92,5 (92,3) | 86.9 (86.6) / 91.8 (91,7) | 102m |
| Macbert-base | 89.4 (89.2) / 94.3 (94.1) | 89,5 (88,7) / 93,8 (93,5) | 102m |
| Électra-grand | 88.8 (88,7) / 93.3 (93.2) | 88.8 (88.2) / 93.6 (93.2) | 324m |
| ROBERTA-WWM-EXT-GARD | 89.6 (89.1) / 94.8 (94,4) | 89,6 (88,9) / 94,5 (94,1) | 324m |
| Macbert-grand | 91.2 (90,8) / 95.6 (95,3) | 91.7 (90,9) / 95.6 (95,3) | 324m |
Dans la tâche d'inférence du langage naturel, nous adoptons les données XNLI , qui nécessite que le texte soit divisé en trois catégories: entailment , neutral et contradictory . L'indicateur d'évaluation est: précision
| Modèle | Développement | Test | #Params |
|---|---|---|---|
| Bascule | 77.8 (77,4) | 77,8 (77,5) | 102m |
| Bert-wwm | 79.0 (78.4) | 78.2 (78.0) | 102m |
| Bert-wwm- | 79.4 (78,6) | 78.7 (78,3) | 102m |
| Roberta-wwm-ext | 80.0 (79.2) | 78.8 (78,3) | 102m |
| Base électra | 77.9 (77.0) | 78,4 (77,8) | 102m |
| Macbert-base | 80.3 (79.7) | 79.3 (78,8) | 102m |
| Électra-grand | 81,5 (80,8) | 81.0 (80.9) | 324m |
| ROBERTA-WWM-EXT-GARD | 82.1 (81.3) | 81.2 (80.6) | 324m |
| Macbert-grand | 82.4 (81.8) | 81.3 (80,6) | 324m |
Dans la tâche d'analyse des sentiments, l'ensemble de données de classification des émotions binaires Chnsenticorp. L'indicateur d'évaluation est: précision
| Modèle | Développement | Test | #Params |
|---|---|---|---|
| Bascule | 94.7 (94.3) | 95.0 (94,7) | 102m |
| Bert-wwm | 95.1 (94,5) | 95,4 (95,0) | 102m |
| Bert-wwm- | 95,4 (94,6) | 95,3 (94,7) | 102m |
| Roberta-wwm-ext | 95.0 (94,6) | 95,6 (94,8) | 102m |
| Base électra | 93.8 (93.0) | 94,5 (93,5) | 102m |
| Macbert-base | 95.2 (94.8) | 95,6 (94,9) | 102m |
| Électra-grand | 95.2 (94,6) | 95,3 (94,8) | 324m |
| ROBERTA-WWM-EXT-GARD | 95,8 (94,9) | 95,8 (94,9) | 324m |
| Macbert-grand | 95,7 (95,0) | 95.9 (95.1) | 324m |
LCQMC a été publié par le Intelligent Computing Research Center de la Harbin Institute of Technology Shenzhen Graduate School. L'indicateur d'évaluation est: précision
| Modèle | Développement | Test | #Params |
|---|---|---|---|
| Bert | 89.4 (88.4) | 86.9 (86.4) | 102m |
| Bert-wwm | 89.4 (89.2) | 87.0 (86.8) | 102m |
| Bert-wwm- | 89.6 (89.2) | 87.1 (86.6) | 102m |
| Roberta-wwm-ext | 89,0 (88,7) | 86.4 (86.1) | 102m |
| Base électra | 90.2 (89.8) | 87.6 (87.3) | 102m |
| Macbert-base | 89,5 (89,3) | 87.0 (86,5) | 102m |
| Électra-grand | 90,7 (90,4) | 87.3 (87.2) | 324m |
| ROBERTA-WWM-EXT-GARD | 90,4 (90,0) | 87.0 (86.8) | 324m |
| Macbert-grand | 90,6 (90,3) | 87.6 (87.1) | 324m |
BQ Corpus est publié par le Intelligent Computing Research Center de la Harbin Institute of Technology Shenzhen Graduate School et est un ensemble de données pour le domaine bancaire. L'indicateur d'évaluation est: précision
| Modèle | Développement | Test | #Params |
|---|---|---|---|
| Bert | 86.0 (85,5) | 84,8 (84,6) | 102m |
| Bert-wwm | 86.1 (85.6) | 85.2 (84.9) | 102m |
| Bert-wwm- | 86.4 (85,5) | 85,3 (84,8) | 102m |
| Roberta-wwm-ext | 86.0 (85,4) | 85,0 (84,6) | 102m |
| Base électra | 84.8 (84,7) | 84,5 (84,0) | 102m |
| Macbert-base | 86.0 (85,5) | 85.2 (84.9) | 102m |
| Électra-grand | 86.7 (86.2) | 85.1 (84.8) | 324m |
| ROBERTA-WWM-EXT-GARD | 86.3 (85,7) | 85,8 (84,9) | 324m |
| Macbert-grand | 86.2 (85,7) | 85,6 (85,0) | 324m |
Q1: Y a-t-il une version anglaise de Macbert?
A1: Aucun pour le moment.
Q2: Comment utiliser Macbert?
A2: Tout comme l'utilisation de Bert, il vous suffit de remplacer simplement le fichier et la configuration du modèle pour l'utiliser. Bien sûr, vous pouvez également former d'autres modèles pré-entraînés en chargeant notre modèle (c'est-à-dire l'initialisation de la section Transformers).
Q3: Pouvez-vous fournir le code de formation Macbert?
A3: Il n'y a pas encore de plan open source.
Q4: Puis-je le corpus pré-formé open source?
A4: Nous ne pouvons pas le corpus de formation open source car il n'y a pas de droit de rééditer en conséquence. Il existe des ressources de corpus chinois open source sur Github, auxquelles vous pouvez prêter plus d'attention et utiliser.
Q5: Y a-t-il des plans pour former Macbert sur un plus grand corpus et open source?
A5: Nous n'avons aucun plan pour le moment.
Si les ressources de ce projet sont utiles pour vos recherches, veuillez citer le document suivant.
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
ou:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
Merci à Google TPU Research Cloud (TFRC) pour son support informatique des ressources.
Si vous avez des questions, veuillez la soumettre dans le problème de GitHub.