Téléchargement Chinese BERT wwm - Téléchargement du code source Chinese BERT wwm

Chinese BERT wwm

Autre code source

1.0.0

Télécharger

La version chinoise-llama-alpaca-2 v1.0 a été officiellement publiée!

Description chinoise | Anglais

Dans le domaine du traitement du langage naturel, les modèles de langage pré-formés (modèles de langue pré-formés) sont devenus une technologie de base très importante. Afin de promouvoir davantage la recherche et le développement du traitement de l'information chinois, nous avons publié le modèle chinois pré-formé BERT-WWM basé sur la technologie de masquage des mots entiers, ainsi que des modèles étroitement liés à cette technologie: Bert-WWM-Ext, Roberta-WWM-Ext.

Pré-formation avec masquage de mot entier pour chinois bert
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
Publié dans les transactions IEEE / ACM sur le traitement audio, de la parole et du langage (TASLP)

Ce projet est basé sur Bert officiel de Google: https://github.com/google-research/bert

Voir plus de ressources publiées par l'IFL de Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology

nouvelles

2023/3/28 Open Source Chinese Llama & Alpaca Big Model, qui peut être rapidement déployé et expérimenté sur PC, Voir: https://github.com/ymcui/chinese-llama-alpaca

2023/3/9 Nous proposons un modèle multimodal pré-entraîné VLE en graphisme et texte, Voir: https://github.com/iflytek/vle

2022/11/15 Nous proposons le petit modèle chinois pré-entraîné Minirbt. Voir: https://github.com/iflytek/minirbt

2022/10/29 Nous proposons un modèle Lert pré-formé qui intègre des informations linguistiques. Voir: https://github.com/ymcui/lert

2022/3/30 Nous avons open source un nouveau modèle pré-formé Pert. Voir: https://github.com/ymcui/pert

Nouvelles historiques

2021/12/17 Iflytek Joint Laboratory lance le modèle de TextPruner de la boîte à outils de coupe du modèle. Voir: https://github.com/airaria/textpruner

2021/10/24 IFLYTEK JOINT LABORATORY a publié un modèle de cino pré-entraîné pour les langues minoritaires ethniques. Voir: https://github.com/ymcui/chinese-minority-plm

2021/7/21 "Traitement du langage naturel: des méthodes basées sur des modèles de pré-formation" écrites par de nombreux chercheurs du Harbin Institute of Technology SCIR ont été publiés, et tout le monde est invité à l'acheter.

2021/1/27 Tous les modèles ont pris en charge TensorFlow 2, veuillez l'appeler ou le télécharger via la bibliothèque Transformers. https://huggingface.co/hfl

2020/9/15 Notre article "Revisiter les modèles pré-formés pour le traitement du langage naturel chinois" a été embauché comme un long article par les résultats de l'EMNLP.

2020/8/27 Laboratoire conjoint IFL en tête de liste dans l'évaluation générale de la compréhension du langage naturel général, vérifiez la liste des collectes, les nouvelles.

2020/3/23 Le modèle publié dans ce répertoire a été connecté à PaddlePaddleHub pour afficher le chargement rapide

2020/3/11 Afin de mieux comprendre les besoins, vous êtes invité à remplir le questionnaire pour vous fournir de meilleures ressources.

2020/2/26 IFLYTEK LABORATOIRE JOPOT LABORATOY

2020/1/20 Je vous souhaite à tous la bonne chance de l'année du rat. Cette fois, RBT3 et RBTL3 (3 couches Roberta-WWM-EXT-Base / Large) ont été libérés pour afficher le modèle de quantité de quantité de paramètre.

2019/12/19 Le modèle publié dans ce répertoire a été connecté à des transformateurs HuggingFace pour afficher le chargement rapide

2019/10/14 Sortir le modèle Roberta-WWM-EXT-LARGE, Voir le modèle chinois Télécharger

2019/9/10 Sortir le modèle Roberta-WWM-Text et afficher le téléchargement du modèle chinois

2019/7/30 fournit un modèle chinois BERT-wwm-ext

Version initiale 2019/6/20, le modèle peut être téléchargé via Google et le disque de cloud domestique a également été téléchargé. Vérifiez le téléchargement du modèle chinois

Guidance de contenu

chapitre	décrire
Introduction	Introduction aux principes de base de Bert-WWM
Téléchargement du modèle chinois	Fournit l'adresse de téléchargement de Bert-WWM
Chargement rapide	Comment utiliser les transformateurs et Paddlehub à charger rapidement les modèles
Comparaison du modèle	Fournit une comparaison des paramètres du modèle dans ce répertoire
Effet du système de base chinois	Énumérez certains effets des systèmes de base chinois
Modèle de quantité de quantité de paramètre	Énumérez les effets du petit modèle de quantité de paramètre (transformateur à 3 couches)
Recommandations pour une utilisation	Plusieurs suggestions pour l'utilisation de modèles chinois pré-formés sont fournis
Télécharger le modèle anglais	Adresse de téléchargement officielle Bert-WWM officielle de Google
FAQ	FAQ et réponses
Citation	Rapports techniques dans ce répertoire

Introduction

Le masquage de mots entiers (WWM) , temporairement traduit par全词Mask ou整词Mask , est une version améliorée de Bert publiée par Google le 31 mai 2019, qui modifie principalement la stratégie de génération d'échantillons d'entraînement au stade de pré-formation original. Autrement dit, la méthode de segmentation des mots basée sur la pièce d'origine divisera un mot complet en plusieurs sous-mots. Lors de la génération d'échantillons de formation, ces sous-mots séparés seront masqués au hasard. Dans全词Mask , si le sous-mot de bouche d'un mot complet est masqué, d'autres parties du même mot sont masquées, c'est-à-dire全词Mask .

Il convient de noter que le masque ici fait référence au masque généralisé (remplacé par [masque]; maintenir le vocabulaire original; remplacé au hasard par un autre mot), et n'est pas limité au cas où le mot est remplacé par la balise [MASK] . Pour des descriptions et des exemples plus détaillés, veuillez vous référer à: # 4

De même, puisque Google a officiellement publié BERT-base, Chinese , le chinois est divisé par des personnages comme granularité et ne prend pas en compte le participe chinois (CWS) dans la PNL traditionnelle. Nous avons appliqué la méthode de masque de mots complet en chinois, utilisé le wikipedia chinois (y compris les chinois simplifiés et traditionnels) pour la formation, et utilisé le Harbin Institute of Technology LTP comme outil de segmentation des mots, c'est-à-dire que tous les caractères chinois qui composent le même mot sont cartographiés.

Le texte suivant montre un exemple de génération全词Mask . Remarque: Par souci d'une compréhension facile, seul le cas du remplacement de la balise [Masque] est considéré dans les exemples suivants.

illustrer	Échantillon
Texte original	Utilisez des modèles linguistiques pour prédire la probabilité du mot suivant.
Texte de participe de mot	Utilisez des modèles linguistiques pour prédire la probabilité du mot suivant.
Entrée du masque d'origine	Utilisez le type de langue [masque] pour tester le pro [masque] du prochain Word Pro [masque] ## lity.
Entrée de masque de mot complet	Utilisez la langue [masque] [masque] pour [masque] [masque] Le mot suivant [masque] [masque].

Téléchargement du modèle chinois

Ce répertoire contient principalement des modèles de base, nous n'abaissons donc pas la base de mots dans l'abréviation du modèle. Pour les modèles d'autres tailles, les balises correspondantes (par exemple, grandes) sont marquées.

BERT-large模型: 24 couches, 1024, 16 têtes, 330m paramètres
BERT-base模型: 12 couches, 768, 120 m de paramètres 110m

Remarque: La version open source ne contient pas le poids des tâches MLM; Si vous devez effectuer des tâches MLM, veuillez utiliser des données supplémentaires pour la pré-formation secondaire (comme les autres tâches en aval).

Abréviation du modèle	Matériels	Google Download	Baidu Netdisk Download
`RBT6, Chinese`	Données EXT ^[1]	-	TensorFlow (mot de passe hniy)
`RBT4, Chinese`	Données EXT ^[1]	-	TensorFlow (mot de passe sjpt)
`RBTL3, Chinese`	Données EXT ^[1]	Tensorflow Pytorch	TensorFlow (mot de passe S6cu)
`RBT3, Chinese`	Données EXT ^[1]	Tensorflow Pytorch	TensorFlow (mot de passe 5A57)
`RoBERTa-wwm-ext-large, Chinese`	Données EXT ^[1]	Tensorflow Pytorch	TensorFlow (mot de passe dqqe)
`RoBERTa-wwm-ext, Chinese`	Données EXT ^[1]	Tensorflow Pytorch	TensorFlow (mot de passe vybq)
`BERT-wwm-ext, Chinese`	Données EXT ^[1]	Tensorflow Pytorch	TensorFlow (mot de passe WGNT)
`BERT-wwm, Chinese`	Wiki chinois	Tensorflow Pytorch	TensorFlow (mot de passe QFH8)
`BERT-base, Chinese` ^Google	Wiki chinois	Google Cloud	-
`BERT-base, Multilingual Cased` ^Google	Wiki multilingue	Google Cloud	-
`BERT-base, Multilingual Uncased` ^Google	Wiki multilingue	Google Cloud	-

[1] Les données EXT comprennent: Wikipedia chinois, d'autres encyclopédies, des nouvelles, des questions et réponses et d'autres données, avec un nombre total de mots atteignant 5,4b.

Version pytorch

Si vous avez besoin de la version Pytorch,

1) Veuillez le convertir vous-même via le script de conversion fourni par Transformers.

2) ou télécharger directement Pytorch via le site officiel de HuggingFace: https://huggingface.co/hfl

Méthode de téléchargement: cliquez sur n'importe quel modèle que vous souhaitez télécharger → Sélectionnez l'onglet "Fichiers et versions" → Téléchargez le fichier de modèle correspondant.

Instructions pour une utilisation

Il est recommandé d'utiliser des points de téléchargement de Baidu Netdisk en Chine continentale, et les utilisateurs à l'étranger sont recommandés d'utiliser des points de téléchargement Google. La taille du fichier du modèle de base est d'environ 400 m . Prendre la version TensorFlow de BERT-wwm, Chinese comme exemple, après téléchargement, décompressez le fichier zip à obtenir:

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

Parmi eux, bert_config.json et vocab.txt sont exactement les mêmes que BERT-base, Chinese d'origine de Google. La version Pytorch contient pytorch_model.bin , bert_config.json et fichiers vocab.txt .

Chargement rapide

Utilisation de transformateurs à câlins

S'appuyant sur la bibliothèque? Transformers, les modèles ci-dessus peuvent être facilement appelés.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Remarque: Tous les modèles de ce répertoire sont chargés à l'aide de Berttokenzer et Bertmodel. N'utilisez pas Robertatokizer / Robertamodel!

La liste correspondante de MODEL_NAME est la suivante:

Nom du modèle	Model_name
ROBERTA-WWM-EXT-GARD	HFL / Chinese-Roberta-WWM-Ext
Roberta-wwm-ext	HFL / Chinese-Roberta-WWM-EXT
Bert-wwm-	HFL / Chinese-Bert-Wwm-Ext
Bert-wwm	HFL / Chinese-Bert-WWM
RBT3	HFL / RBT3
Rbtl3	HFL / RBTL3

Utilisation de Paddlehub

S'appuyant sur Paddlehub, vous pouvez télécharger et installer le modèle avec une seule ligne de code, et plus de dix lignes de code peuvent effectuer des tâches telles que la classification du texte, l'annotation de séquence, la compréhension en lecture, etc.

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

La liste correspondante de MODULE_NAME est la suivante:

Nom du modèle	Module_name
ROBERTA-WWM-EXT-GARD	Chinois-Roberta-WWM-EXT-GRAND
Roberta-wwm-ext	Chinese-Roberta-WWM-EXT
Bert-wwm-	chinois-bert-wwm-ext
Bert-wwm	Chinois-BERT-WWM
RBT3	RBT3
Rbtl3	rbtl3

Comparaison du modèle

Ce qui suit est un résumé de certains détails du modèle qui se soucient davantage.

-	Bert ^Google	Bert-wwm	Bert-wwm-	Roberta-wwm-ext	ROBERTA-WWM-EXT-GARD
Masquage	Pièce de bouche	Wwm ^[1]	Wwm	Wwm	Wwm
Taper	base	base	base	base	Grand
Source de données	Wiki	Wiki	wiki + ext ^[2]	wiki + ext	wiki + ext
Tokens de formation #	0,4b	0,4b	5.4b	5.4b	5.4b
Appareil	TPU POD V2	TPU V3	TPU V3	TPU V3	TPU POD V3-32 ^[3]
Étapes de formation	?	100k ^max128 + 100k ^max512	1m ^max128 + 400k ^max512	1m ^max512	2m ^max512
Taille de lot	?	2 560/384	2 560/384	384	512
Optimiseur	Adamw	AGNEAU	AGNEAU	Adamw	Adamw
Vocabulaire	21 128	~ Bert ^[4]	~ Bert	~ Bert	~ Bert
Point de contrôle init	Init aléatoire	~ Bert	~ Bert	~ Bert	Init aléatoire

[1] wwm = masquage de mot entier
[2] EXT = données étendues
[3] TPU POD V3-32 (512G HBM) est équivalent à 4 TPU V3 (128g HBM)
[4] ~BERT signifie hériter des attributs du chinois Bert d'origine de Google

Effet du système de base chinois

Pour comparer les effets de référence, nous l'avons testé sur les ensembles de données chinoises suivants, y compris les tâches句子级et篇章级. Pour BERT-wwm-ext , RoBERTa-wwm-ext et RoBERTa-wwm-ext-large , nous n'avons pas encore ajusté le taux d'apprentissage optimal , mais utilisé directement le taux d'apprentissage optimal de BERT-wwm .

Meilleur taux d'apprentissage:

Modèle	Bert	Ernie	Bert-wwm *
CMRC 2018	3E-5	8E-5	3E-5
DRCD	3E-5	8E-5	3E-5
CJRC	4E-5	8E-5	4E-5
Xnli	3E-5	5E-5	3E-5
Chnsenticorp	2E-5	5E-5	2E-5
LCQMC	2E-5	3E-5	2E-5
Corpus BQ	3E-5	5E-5	3E-5
Thucnews	2E-5	5E-5	2E-5

* Représente tous les modèles de la série WWM (BERT-WWM, Bert-WWM-EXT, Roberta-WWM-Ext

Seuls certains résultats sont répertoriés ci-dessous. Veuillez consulter notre rapport technique pour les résultats complets.

CMRC 2018 : Compréhension de la lecture de l'extraction des fragments de chapitre (chinois simplifié)
DRCD : Compréhension de la lecture de l'extraction des fragments de chapitre (chinois traditionnel)
CJRC : Compréhension légale de la lecture (chinois simplifié)
XNLI : inférence du langage naturel
Chnsenticorp : analyse Senti
LCQMC : correspondance de paire de phrases
BQ Corpus : correspondance de la paire de phrases
Thucnews : classification de texte au niveau du chapitre

Remarque: Pour garantir la fiabilité des résultats, pour le même modèle, nous exécutons 10 fois (différentes graines aléatoires) pour signaler les valeurs maximales et moyennes des performances du modèle (les valeurs moyennes entre parenthèses). Si rien de inattendu ne se produit, le résultat de votre opération doit être dans cette plage.

Dans l'indicateur d'évaluation, la valeur moyenne est représentée dans les supports et la valeur maximale est représentée des supports extérieurs.

Compréhension de la lecture chinoise simplifiée: CMRC 2018

L'ensemble de données CMRC 2018 est les données chinoises de compréhension de la lecture des machines publiées par le Laboratoire conjoint de Harbin Institute of Technology. Selon une question donnée, le système doit extraire des fragments du chapitre comme réponse, sous la même forme que Squad. Les indicateurs d'évaluation sont: EM / F1

Modèle	Ensemble de développement	Test de test	Défi
Bert	65,5 (64,4) / 84,5 (84,0)	70.0 (68.7) / 87.0 (86.3)	18.6 (17.0) / 43.3 (41.3)
Ernie	65,4 (64,3) / 84.7 (84,2)	69.4 (68.2) / 86.6 (86.1)	19.6 (17.0) / 44,3 (42,8)
Bert-wwm	66.3 (65.0) / 85.6 (84,7)	70,5 (69.1) / 87.4 (86.7)	21.0 (19.3) / 47.0 (43,9)
Bert-wwm-	67.1 (65.6) / 85.7 (85,0)	71.4 (70.0) / 87.7 (87.0)	24.0 (20.0) / 47.3 (44,6)
Roberta-wwm-ext	67,4 (66,5) / 87,2 (86,5)	72.6 (71.4) / 89.4 (88,8)	26.2 (24.6) / 51.0 (49.1)
ROBERTA-WWM-EXT-GARD	68,5 (67,6) / 88,4 (87,9)	74.2 (72,4) / 90,6 (90,0)	31.5 (30.1) / 60.1 (57,5)

Compréhension traditionnelle de la lecture chinoise: DRCD

L'ensemble de données DRCD a été publié par le Delta Research Institute, Taiwan, Chine. Sa forme est la même que l'escouade et est un ensemble de données de compréhension en lecture extrait basé sur le chinois traditionnel. Étant donné que les caractères chinois traditionnels sont supprimés d'Ernie, il n'est pas recommandé d'utiliser Ernie (ou de le convertir en chinois simplifié puis de le traiter) sur les données chinoises traditionnelles. Les indicateurs d'évaluation sont: EM / F1

Modèle	Ensemble de développement	Test de test
Bert	83.1 (82.7) / 89.9 (89,6)	82.2 (81.6) / 89.2 (88,8)
Ernie	73.2 (73.0) / 83.9 (83,8)	71.9 (71.4) / 82,5 (82,3)
Bert-wwm	84.3 (83.4) / 90,5 (90,2)	82.8 (81.8) / 89.7 (89.0)
Bert-wwm-	85.0 (84,5) / 91.2 (90,9)	83.6 (83,0) / 90,4 (89,9)
Roberta-wwm-ext	86.6 (85.9) / 92.5 (92.2)	85.6 (85.2) / 92.0 (91,7)
ROBERTA-WWM-EXT-GARD	89.6 (89.1) / 94.8 (94,4)	89,6 (88,9) / 94,5 (94,1)

Compréhension de la lecture judiciaire: CJRC

L'ensemble de données CJRC est les données de compréhension de la lecture des machines chinoises pour le champ judiciaire publié par le Laboratoire conjoint d'Iflytek. Il convient de noter que les données utilisées dans l'expérience ne sont pas les données finales publiées par l'officiel, et les résultats sont uniquement pour référence. Les indicateurs d'évaluation sont: EM / F1

Modèle	Ensemble de développement	Test de test
Bert	54,6 (54,0) / 75,4 (74,5)	55.1 (54.1) / 75.2 (74.3)
Ernie	54,3 (53,9) / 75,3 (74,6)	55.0 (53.9) / 75.0 (73,9)
Bert-wwm	54,7 (54,0) / 75.2 (74,8)	55.1 (54.1) / 75.4 (74,4)
Bert-wwm-	55,6 (54,8) / 76.0 (75,3)	55,6 (54,9) / 75.8 (75,0)
Roberta-wwm-ext	58.7 (57,6) / 79.1 (78,3)	59,0 (57,8) / 79.0 (78,0)
ROBERTA-WWM-EXT-GARD	62.1 (61.1) / 82.4 (81.6)	62.4 (61.4) / 82.2 (81.0)

Inférence du langage naturel: XNLI

Dans la tâche d'inférence du langage naturel, nous adoptons les données XNLI , qui nécessite que le texte soit divisé en trois catégories: entailment , neutral et contradictory . L'indicateur d'évaluation est: précision

Modèle	Ensemble de développement	Test de test
Bert	77.8 (77,4)	77,8 (77,5)
Ernie	79.7 (79.4)	78.6 (78.2)
Bert-wwm	79.0 (78.4)	78.2 (78.0)
Bert-wwm-	79.4 (78,6)	78.7 (78,3)
Roberta-wwm-ext	80.0 (79.2)	78.8 (78,3)
ROBERTA-WWM-EXT-GARD	82.1 (81.3)	81.2 (80.6)

Senticorp

Dans la tâche d'analyse des sentiments, l'ensemble de données de classification des émotions binaires Chnsenticorp. L'indicateur d'évaluation est: précision

Modèle	Ensemble de développement	Test de test
Bert	94.7 (94.3)	95.0 (94,7)
Ernie	95,4 (94,8)	95,4 (95,3)
Bert-wwm	95.1 (94,5)	95,4 (95,0)
Bert-wwm-	95,4 (94,6)	95,3 (94,7)
Roberta-wwm-ext	95.0 (94,6)	95,6 (94,8)
ROBERTA-WWM-EXT-GARD	95,8 (94,9)	95,8 (94,9)

Classification des paires de phrases: LCQMC, BQ Corpus

Les deux ensembles de données suivants doivent classer une paire de phrases pour déterminer si la sémantique des deux phrases est la même (tâche de classification binaire).

LCQMC

LCQMC a été publié par le Intelligent Computing Research Center de la Harbin Institute of Technology Shenzhen Graduate School. L'indicateur d'évaluation est: précision

Modèle	Ensemble de développement	Test de test
Bert	89.4 (88.4)	86.9 (86.4)
Ernie	89.8 (89,6)	87.2 (87.0)
Bert-wwm	89.4 (89.2)	87.0 (86.8)
Bert-wwm-	89.6 (89.2)	87.1 (86.6)
Roberta-wwm-ext	89,0 (88,7)	86.4 (86.1)
ROBERTA-WWM-EXT-GARD	90,4 (90,0)	87.0 (86.8)

Corpus BQ

BQ Corpus est publié par le Intelligent Computing Research Center de la Harbin Institute of Technology Shenzhen Graduate School et est un ensemble de données pour le domaine bancaire. L'indicateur d'évaluation est: précision

Modèle	Ensemble de développement	Test de test
Bert	86.0 (85,5)	84,8 (84,6)
Ernie	86.3 (85,5)	85,0 (84,6)
Bert-wwm	86.1 (85.6)	85.2 (84.9)
Bert-wwm-	86.4 (85,5)	85,3 (84,8)
Roberta-wwm-ext	86.0 (85,4)	85,0 (84,6)
ROBERTA-WWM-EXT-GARD	86.3 (85,7)	85,8 (84,9)

Classification de texte au niveau du chapitre: Thucnews

Pour les tâches de classification des textes au niveau de la section, nous avons sélectionné Thucnews, un ensemble de données de nouvelles publié par le Laboratory de traitement du langage naturel de l'Université Tsinghua. Nous prenons l'un des sous-ensembles et devons diviser les nouvelles en l'une des 10 catégories. L'indicateur d'évaluation est: précision

Modèle	Ensemble de développement	Test de test
Bert	97.7 (97,4)	97.8 (97,6)
Ernie	97.6 (97,3)	97,5 (97,3)
Bert-wwm	98.0 (97,6)	97.8 (97,6)
Bert-wwm-	97.7 (97,5)	97.7 (97,5)
Roberta-wwm-ext	98.3 (97,9)	97.7 (97,5)
ROBERTA-WWM-EXT-GARD	98.3 (97,7)	97.8 (97,6)

Modèle de quantité de quantité de paramètre

Voici les résultats expérimentaux sur plusieurs tâches PNL, et seule la comparaison des résultats des tests de test est fournie dans le tableau.

Modèle	CMRC 2018	DRCD	Xnli	CSC	LCQMC	Bq	moyenne	Quantité de paramètre
ROBERTA-WWM-EXT-GARD	74.2 / 90.6	89,6 / 94,5	81.2	95.8	87.0	85.8	87.335	325m
Roberta-wwm-ext	72.6 / 89.4	85.6 / 92.0	78.8	95.6	86.4	85.0	85.675	102m
Rbtl3	63.3 / 83.4	77.2 / 85.6	74.0	94.2	85.1	83.6	80.800	61m (59,8%)
RBT3	62.2 / 81.8	75.0 / 83.9	72.3	92.8	85.1	83.3	79.550	38m (37,3%)

Comparaison des effets relatifs:

Modèle	CMRC 2018	DRCD	Xnli	CSC	LCQMC	Bq	moyenne	Moyenne de classification
ROBERTA-WWM-EXT-GARD	102,2% / 101,3%	104,7% / 102,7%	103,0%	100,2%	100,7%	100,9%	101,9%	101,2%
Roberta-wwm-ext	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
Rbtl3	87,2% / 93,3%	90,2% / 93,0%	93,9%	98,5%	98,5%	98,4%	94,3%	97,35%
RBT3	85,7% / 91,5%	87,6% / 91,2%	91,8%	97,1%	98,5%	98,0%	92,9%	96,35%

La quantité de paramètre est calculée sur la base de la tâche de classification XNLI
Le pourcentage de paramètres entre parenthèses est basé sur le modèle de base d'origine (c'est-à-dire ROBERTA-WWM-EXT)
RBT3: Initialisé par la couche 3 de Roberta-WWM-Text, et a continué à s'entraîner pour 1 m.
RBTL3: Initialisé par Roberta-WWM-EXT-GARD-LAGER 3, et a continué à s'entraîner pour 1 m.
Le nom de RBT est composé de trois initiales de syllabes de Roberta, et L représente le grand modèle
L'utilisation directe des trois premières couches de Roberta-WWM-Exort-Gle pour l'initialisation et la formation en aval les tâches réduiront considérablement l'effet. Par exemple, sur CMRC 2018, l'ensemble de tests ne peut atteindre que 42,9 / 65,3, tandis que RBTL3 peut atteindre 63,3 / 83.4

Bienvenue dans le petit modèle chinois pré-tracé Minirbt avec de meilleurs résultats: https://github.com/iflytek/minirbt

Recommandations pour une utilisation

Le taux d'apprentissage initial est un paramètre très important (qu'il s'agisse de BERT ou d'autres modèles) et doit être ajusté en fonction de la tâche cible.
Le taux d'apprentissage optimal d' ERNIE est très différent de BERT / BERT-wwm , alors assurez-vous d'ajuster le taux d'apprentissage lors de l'utilisation ERNIE (sur la base des résultats expérimentaux ci-dessus, le taux d'apprentissage initial requis par ERNIE est relativement élevé).
Étant donné que BERT / BERT-wwm utilise des données Wikipedia pour la formation, elles sont meilleures pour modéliser des textes formels; Alors ERNIE utilise des données de réseau supplémentaires telles que Baidu Tieba et Zhi, qui présente des avantages dans la modélisation des textes informels (comme Weibo, etc.).
Dans de longues tâches de modélisation de texte, telles que la compréhension de la lecture, la classification des documents, BERT et BERT-wwm ont de meilleurs résultats.
Si les données de la tâche cible sont différentes des champs du modèle pré-formé, veuillez effectuer davantage de pré-formation sur votre propre ensemble de données.
Si vous souhaitez traiter les données traditionnelles chinoises, utilisez BERT ou BERT-wwm . Parce que nous avons constaté qu'il n'y a presque pas de chinois traditionnel dans la liste de vocabulaire d' ERNIE .

Télécharger le modèle anglais

Pour faciliter tout le monde pour télécharger, apportez le modèle anglais BERT-large (wwm) officiellement publié par Google :

BERT-Large, Uncased (Whole Word Masking) : 24 couches, 1024, 16 têtes, 340 m de paramètres
BERT-Large, Cased (Whole Word Masking) : 24 couches, 1024, 16 têtes, 340 m de paramètres

FAQ

Q: Comment utiliser ce modèle?
R: Comment utiliser le Bert chinois publié par Google, comment l'utiliser. Le texte n'a pas besoin de passer par la segmentation des mots, et WWM n'affecte que le processus de pré-formation et n'affecte pas l'entrée des tâches en aval.

Q: Y a-t-il un code de pré-formation fourni?
R: Malheureusement, je ne peux pas fournir de code pertinent. Vous pouvez vous référer aux n ° 10 et # 13 pour l'implémentation.

Q: Où télécharger un certain ensemble de données?
R: Veuillez vérifier le répertoire data . README.md dans le répertoire des tâches indique la source de données. Pour le contenu protégé par le droit d'auteur, veuillez rechercher par vous-même ou contacter l'auteur d'origine pour obtenir des données.

Q: Sera-t-il prévu de publier un modèle plus grand? Par exemple, la version Bert-Large-WWM?
R: Si nous obtenons de meilleurs résultats de l'expérience, nous envisagerons de libérer une version plus grande.

Q: Vous mentez! Vous ne pouvez pas reproduire le résultat?
R: Dans la tâche en aval, nous avons adopté le modèle le plus simple. Par exemple, pour les tâches de classification, nous utilisons directement run_classifier.py (fourni par Google). Si la valeur moyenne ne peut pas être atteinte, cela signifie qu'il y a un bug dans l'expérience elle-même. Veuillez le vérifier attentivement. Il existe de nombreux facteurs aléatoires pour la valeur la plus élevée, et nous ne pouvons garantir que nous pouvons atteindre la valeur la plus élevée. Un autre facteur reconnu: la réduction de la taille du lot réduira considérablement l'effet expérimental. Pour plus de détails, veuillez vous référer à la question pertinente du répertoire Bert et XLNET.

Q: J'obtiendrai de meilleurs résultats que vous!
R: Félicitations.

Q: Combien de temps faut-il pour s'entraîner et quel équipement a-t-il formé?
R: La formation a été terminée dans la version Google TPU V3 (128g HBM). La formation Bert-WWM prend environ 1,5 jours, tandis que Bert-WWM-EXT prend plusieurs semaines (plus de données sont utilisées pour itérer davantage). Il convient de noter que lors de l'étape de pré-formation, nous utilisons LAMB Optimizer (implémentation de la version TensorFlow). Cet optimiseur a un bon support pour les grands lots. Lorsque vous affligez les tâches en aval, nous utilisons AdamWeightDecayOptimizer par défaut de Bert.

Q: Qui est Ernie?
R: Le modèle Ernie dans ce projet fait spécifiquement référence à l'Ernie proposé par Baidu, plutôt qu'à l'Ernie publié par l'Université Tsinghua sur ACL 2019.

Q: L'effet de Bert-WWM n'est pas très bon dans toutes les tâches
R: Le but de ce projet est de fournir aux chercheurs des modèles pré-formés diversifiés, en sélectionnant librement Bert, Ernie ou Bert-WWM. Nous fournissons uniquement des données expérimentales, et nous devons toujours faire de notre mieux dans nos propres tâches pour tirer des conclusions. Un autre modèle, un autre choix.

Q: Pourquoi certains ensembles de données ne sont-ils pas essayés?
R: Pour être franc, je ne suis pas d'humeur à trouver plus de données; 2) Je n'ai pas à le faire; 3) Je n'ai pas d'argent;

Q: Évaluons brièvement ces modèles
R: Chacun a son propre objectif et ses propres forces. La recherche et le développement du traitement du langage naturel chinois nécessite des efforts conjoints de toutes les parties.

Q: Quel est le nom du prochain modèle pré-entraîné que vous prévoyez?
R: Peut-être que ça s'appelle Zoe. Zoe: intégres zéro-shot à partir du modèle de langue

Q: Plus de détails sur RoBERTa-wwm-ext ?
R: Nous intégrons les avantages de Roberta et Bert-WWM pour faire une combinaison naturelle des deux. La différence entre les modèles de ce répertoire est la suivante:
1) Utilisez la stratégie WWM pour masquer au stade pré-formation (mais pas de masquage dynamique)
2) Annuler simplement la perte de prédiction de phrase suivante (NSP)
3) n'utilise plus le mode de formation de max_len = 128 puis max_len = 512, entraînez directement max_len = 512
4) étendre les étapes de formation de manière appropriée

Il convient de noter que ce modèle n'est pas le modèle Roberta d'origine, mais n'est qu'un modèle Bert formé à une méthode de formation similaire à Roberta, à savoir Bert de Roberta. Par conséquent, lorsque vous utilisez des tâches en aval et des modèles de conversion, veuillez les traiter dans Bert, plutôt que Roberta.

Citation

Si les ressources ou les technologies de ce projet sont utiles à vos travaux de recherche, veuillez vous référer au document suivant dans l'article.

Préféré (Journal Explore): https://ieeexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Ou (version de la conférence): https://www.aclweb.org/anthology/2020.findings-emllp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

Remerciements

Le premier auteur est partiellement financé par le programme TPU Research Cloud de Google .

Clause de non-responsabilité

Ce projet n'est pas le modèle chinois Bert-WWM officiellement publié par Google. Dans le même temps, ce projet n'est pas un produit officiel du Harbin Institute of Technology ou Iflytek. Les résultats expérimentaux présentés dans le rapport technique montrent uniquement que les performances dans un ensemble de données spécifiques et une combinaison hyperparamètre ne représente pas la nature de chaque modèle. Les résultats expérimentaux peuvent changer en raison de graines de nombre aléatoire et de dispositifs informatiques. Le contenu de ce projet concerne uniquement la référence de la recherche technique et n'est pas utilisé comme base de conclusion. Les utilisateurs peuvent utiliser le modèle à tout moment dans le cadre de la licence, mais nous ne sommes pas responsables des pertes directes ou indirectes causées par l'utilisation du contenu du projet.