Description chinoise | Anglais

Dans le domaine du traitement du langage naturel, les modèles de langage pré-formés (modèles de langue pré-formés) sont devenus une technologie de base très importante. Afin de promouvoir davantage la recherche et le développement du traitement de l'information chinois, nous avons publié le modèle chinois pré-formé BERT-WWM basé sur la technologie de masquage des mots entiers, ainsi que des modèles étroitement liés à cette technologie: Bert-WWM-Ext, Roberta-WWM-Ext.
Ce projet est basé sur Bert officiel de Google: https://github.com/google-research/bert
Lert chinois | Pert anglais chinois | Macbert chinois | Electra chinois | Xlnet chinois | Chinois Bert | Outil de distillation de connaissances TextBrewer | Modèle de coupe TextPruner
Voir plus de ressources publiées par l'IFL de Harbin Institute of Technology (HFL): https://github.com/ymcui/hfl-anthology
2023/3/28 Open Source Chinese Llama & Alpaca Big Model, qui peut être rapidement déployé et expérimenté sur PC, Voir: https://github.com/ymcui/chinese-llama-alpaca
2023/3/9 Nous proposons un modèle multimodal pré-entraîné VLE en graphisme et texte, Voir: https://github.com/iflytek/vle
2022/11/15 Nous proposons le petit modèle chinois pré-entraîné Minirbt. Voir: https://github.com/iflytek/minirbt
2022/10/29 Nous proposons un modèle Lert pré-formé qui intègre des informations linguistiques. Voir: https://github.com/ymcui/lert
2022/3/30 Nous avons open source un nouveau modèle pré-formé Pert. Voir: https://github.com/ymcui/pert
2021/10/24 IFLYTEK JOINT LABORATORY a publié un modèle de cino pré-entraîné pour les langues minoritaires ethniques. Voir: https://github.com/ymcui/chinese-minority-plm
2021/7/21 "Traitement du langage naturel: des méthodes basées sur des modèles de pré-formation" écrites par de nombreux chercheurs du Harbin Institute of Technology SCIR ont été publiés, et tout le monde est invité à l'acheter.
2021/1/27 Tous les modèles ont pris en charge TensorFlow 2, veuillez l'appeler ou le télécharger via la bibliothèque Transformers. https://huggingface.co/hfl
2020/9/15 Notre article "Revisiter les modèles pré-formés pour le traitement du langage naturel chinois" a été embauché comme un long article par les résultats de l'EMNLP.
2020/8/27 Laboratoire conjoint IFL en tête de liste dans l'évaluation générale de la compréhension du langage naturel général, vérifiez la liste des collectes, les nouvelles.
2020/3/23 Le modèle publié dans ce répertoire a été connecté à PaddlePaddleHub pour afficher le chargement rapide
2020/3/11 Afin de mieux comprendre les besoins, vous êtes invité à remplir le questionnaire pour vous fournir de meilleures ressources.
2020/2/26 IFLYTEK LABORATOIRE JOPOT LABORATOY
2020/1/20 Je vous souhaite à tous la bonne chance de l'année du rat. Cette fois, RBT3 et RBTL3 (3 couches Roberta-WWM-EXT-Base / Large) ont été libérés pour afficher le modèle de quantité de quantité de paramètre.
2019/12/19 Le modèle publié dans ce répertoire a été connecté à des transformateurs HuggingFace pour afficher le chargement rapide
2019/10/14 Sortir le modèle Roberta-WWM-EXT-LARGE, Voir le modèle chinois Télécharger
2019/9/10 Sortir le modèle Roberta-WWM-Text et afficher le téléchargement du modèle chinois
2019/7/30 fournit un modèle chinois BERT-wwm-ext
Version initiale 2019/6/20, le modèle peut être téléchargé via Google et le disque de cloud domestique a également été téléchargé. Vérifiez le téléchargement du modèle chinois
| chapitre | décrire |
|---|---|
| Introduction | Introduction aux principes de base de Bert-WWM |
| Téléchargement du modèle chinois | Fournit l'adresse de téléchargement de Bert-WWM |
| Chargement rapide | Comment utiliser les transformateurs et Paddlehub à charger rapidement les modèles |
| Comparaison du modèle | Fournit une comparaison des paramètres du modèle dans ce répertoire |
| Effet du système de base chinois | Énumérez certains effets des systèmes de base chinois |
| Modèle de quantité de quantité de paramètre | Énumérez les effets du petit modèle de quantité de paramètre (transformateur à 3 couches) |
| Recommandations pour une utilisation | Plusieurs suggestions pour l'utilisation de modèles chinois pré-formés sont fournis |
| Télécharger le modèle anglais | Adresse de téléchargement officielle Bert-WWM officielle de Google |
| FAQ | FAQ et réponses |
| Citation | Rapports techniques dans ce répertoire |
Le masquage de mots entiers (WWM) , temporairement traduit par全词Mask ou整词Mask , est une version améliorée de Bert publiée par Google le 31 mai 2019, qui modifie principalement la stratégie de génération d'échantillons d'entraînement au stade de pré-formation original. Autrement dit, la méthode de segmentation des mots basée sur la pièce d'origine divisera un mot complet en plusieurs sous-mots. Lors de la génération d'échantillons de formation, ces sous-mots séparés seront masqués au hasard. Dans全词Mask , si le sous-mot de bouche d'un mot complet est masqué, d'autres parties du même mot sont masquées, c'est-à-dire全词Mask .
Il convient de noter que le masque ici fait référence au masque généralisé (remplacé par [masque]; maintenir le vocabulaire original; remplacé au hasard par un autre mot), et n'est pas limité au cas où le mot est remplacé par la balise [MASK] . Pour des descriptions et des exemples plus détaillés, veuillez vous référer à: # 4
De même, puisque Google a officiellement publié BERT-base, Chinese , le chinois est divisé par des personnages comme granularité et ne prend pas en compte le participe chinois (CWS) dans la PNL traditionnelle. Nous avons appliqué la méthode de masque de mots complet en chinois, utilisé le wikipedia chinois (y compris les chinois simplifiés et traditionnels) pour la formation, et utilisé le Harbin Institute of Technology LTP comme outil de segmentation des mots, c'est-à-dire que tous les caractères chinois qui composent le même mot sont cartographiés.
Le texte suivant montre un exemple de génération全词Mask . Remarque: Par souci d'une compréhension facile, seul le cas du remplacement de la balise [Masque] est considéré dans les exemples suivants.
| illustrer | Échantillon |
|---|---|
| Texte original | Utilisez des modèles linguistiques pour prédire la probabilité du mot suivant. |
| Texte de participe de mot | Utilisez des modèles linguistiques pour prédire la probabilité du mot suivant. |
| Entrée du masque d'origine | Utilisez le type de langue [masque] pour tester le pro [masque] du prochain Word Pro [masque] ## lity. |
| Entrée de masque de mot complet | Utilisez la langue [masque] [masque] pour [masque] [masque] Le mot suivant [masque] [masque]. |
Ce répertoire contient principalement des modèles de base, nous n'abaissons donc pas la base de mots dans l'abréviation du modèle. Pour les modèles d'autres tailles, les balises correspondantes (par exemple, grandes) sont marquées.
BERT-large模型: 24 couches, 1024, 16 têtes, 330m paramètresBERT-base模型: 12 couches, 768, 120 m de paramètres 110mRemarque: La version open source ne contient pas le poids des tâches MLM; Si vous devez effectuer des tâches MLM, veuillez utiliser des données supplémentaires pour la pré-formation secondaire (comme les autres tâches en aval).
| Abréviation du modèle | Matériels | Google Download | Baidu Netdisk Download |
|---|---|---|---|
RBT6, Chinese | Données EXT [1] | - | TensorFlow (mot de passe hniy) |
RBT4, Chinese | Données EXT [1] | - | TensorFlow (mot de passe sjpt) |
RBTL3, Chinese | Données EXT [1] | Tensorflow Pytorch | TensorFlow (mot de passe S6cu) |
RBT3, Chinese | Données EXT [1] | Tensorflow Pytorch | TensorFlow (mot de passe 5A57) |
RoBERTa-wwm-ext-large, Chinese | Données EXT [1] | Tensorflow Pytorch | TensorFlow (mot de passe dqqe) |
RoBERTa-wwm-ext, Chinese | Données EXT [1] | Tensorflow Pytorch | TensorFlow (mot de passe vybq) |
BERT-wwm-ext, Chinese | Données EXT [1] | Tensorflow Pytorch | TensorFlow (mot de passe WGNT) |
BERT-wwm, Chinese | Wiki chinois | Tensorflow Pytorch | TensorFlow (mot de passe QFH8) |
BERT-base, Chinese Google | Wiki chinois | Google Cloud | - |
BERT-base, Multilingual Cased Google | Wiki multilingue | Google Cloud | - |
BERT-base, Multilingual Uncased Google | Wiki multilingue | Google Cloud | - |
[1] Les données EXT comprennent: Wikipedia chinois, d'autres encyclopédies, des nouvelles, des questions et réponses et d'autres données, avec un nombre total de mots atteignant 5,4b.
Si vous avez besoin de la version Pytorch,
1) Veuillez le convertir vous-même via le script de conversion fourni par Transformers.
2) ou télécharger directement Pytorch via le site officiel de HuggingFace: https://huggingface.co/hfl
Méthode de téléchargement: cliquez sur n'importe quel modèle que vous souhaitez télécharger → Sélectionnez l'onglet "Fichiers et versions" → Téléchargez le fichier de modèle correspondant.
Il est recommandé d'utiliser des points de téléchargement de Baidu Netdisk en Chine continentale, et les utilisateurs à l'étranger sont recommandés d'utiliser des points de téléchargement Google. La taille du fichier du modèle de base est d'environ 400 m . Prendre la version TensorFlow de BERT-wwm, Chinese comme exemple, après téléchargement, décompressez le fichier zip à obtenir:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
Parmi eux, bert_config.json et vocab.txt sont exactement les mêmes que BERT-base, Chinese d'origine de Google. La version Pytorch contient pytorch_model.bin , bert_config.json et fichiers vocab.txt .
S'appuyant sur la bibliothèque? Transformers, les modèles ci-dessus peuvent être facilement appelés.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Remarque: Tous les modèles de ce répertoire sont chargés à l'aide de Berttokenzer et Bertmodel. N'utilisez pas Robertatokizer / Robertamodel!
La liste correspondante de MODEL_NAME est la suivante:
| Nom du modèle | Model_name |
|---|---|
| ROBERTA-WWM-EXT-GARD | HFL / Chinese-Roberta-WWM-Ext |
| Roberta-wwm-ext | HFL / Chinese-Roberta-WWM-EXT |
| Bert-wwm- | HFL / Chinese-Bert-Wwm-Ext |
| Bert-wwm | HFL / Chinese-Bert-WWM |
| RBT3 | HFL / RBT3 |
| Rbtl3 | HFL / RBTL3 |
S'appuyant sur Paddlehub, vous pouvez télécharger et installer le modèle avec une seule ligne de code, et plus de dix lignes de code peuvent effectuer des tâches telles que la classification du texte, l'annotation de séquence, la compréhension en lecture, etc.
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
La liste correspondante de MODULE_NAME est la suivante:
| Nom du modèle | Module_name |
|---|---|
| ROBERTA-WWM-EXT-GARD | Chinois-Roberta-WWM-EXT-GRAND |
| Roberta-wwm-ext | Chinese-Roberta-WWM-EXT |
| Bert-wwm- | chinois-bert-wwm-ext |
| Bert-wwm | Chinois-BERT-WWM |
| RBT3 | RBT3 |
| Rbtl3 | rbtl3 |
Ce qui suit est un résumé de certains détails du modèle qui se soucient davantage.
| - | Bert Google | Bert-wwm | Bert-wwm- | Roberta-wwm-ext | ROBERTA-WWM-EXT-GARD |
|---|---|---|---|---|---|
| Masquage | Pièce de bouche | Wwm [1] | Wwm | Wwm | Wwm |
| Taper | base | base | base | base | Grand |
| Source de données | Wiki | Wiki | wiki + ext [2] | wiki + ext | wiki + ext |
| Tokens de formation # | 0,4b | 0,4b | 5.4b | 5.4b | 5.4b |
| Appareil | TPU POD V2 | TPU V3 | TPU V3 | TPU V3 | TPU POD V3-32 [3] |
| Étapes de formation | ? | 100k max128 + 100k max512 | 1m max128 + 400k max512 | 1m max512 | 2m max512 |
| Taille de lot | ? | 2 560/384 | 2 560/384 | 384 | 512 |
| Optimiseur | Adamw | AGNEAU | AGNEAU | Adamw | Adamw |
| Vocabulaire | 21 128 | ~ Bert [4] | ~ Bert | ~ Bert | ~ Bert |
| Point de contrôle init | Init aléatoire | ~ Bert | ~ Bert | ~ Bert | Init aléatoire |
[1] wwm = masquage de mot entier
[2] EXT = données étendues
[3] TPU POD V3-32 (512G HBM) est équivalent à 4 TPU V3 (128g HBM)
[4]~BERTsignifie hériter des attributs du chinois Bert d'origine de Google
Pour comparer les effets de référence, nous l'avons testé sur les ensembles de données chinoises suivants, y compris les tâches句子级et篇章级. Pour BERT-wwm-ext , RoBERTa-wwm-ext et RoBERTa-wwm-ext-large , nous n'avons pas encore ajusté le taux d'apprentissage optimal , mais utilisé directement le taux d'apprentissage optimal de BERT-wwm .
Meilleur taux d'apprentissage:
| Modèle | Bert | Ernie | Bert-wwm * |
|---|---|---|---|
| CMRC 2018 | 3E-5 | 8E-5 | 3E-5 |
| DRCD | 3E-5 | 8E-5 | 3E-5 |
| CJRC | 4E-5 | 8E-5 | 4E-5 |
| Xnli | 3E-5 | 5E-5 | 3E-5 |
| Chnsenticorp | 2E-5 | 5E-5 | 2E-5 |
| LCQMC | 2E-5 | 3E-5 | 2E-5 |
| Corpus BQ | 3E-5 | 5E-5 | 3E-5 |
| Thucnews | 2E-5 | 5E-5 | 2E-5 |
* Représente tous les modèles de la série WWM (BERT-WWM, Bert-WWM-EXT, Roberta-WWM-Ext
Seuls certains résultats sont répertoriés ci-dessous. Veuillez consulter notre rapport technique pour les résultats complets.
Remarque: Pour garantir la fiabilité des résultats, pour le même modèle, nous exécutons 10 fois (différentes graines aléatoires) pour signaler les valeurs maximales et moyennes des performances du modèle (les valeurs moyennes entre parenthèses). Si rien de inattendu ne se produit, le résultat de votre opération doit être dans cette plage.
Dans l'indicateur d'évaluation, la valeur moyenne est représentée dans les supports et la valeur maximale est représentée des supports extérieurs.
L'ensemble de données CMRC 2018 est les données chinoises de compréhension de la lecture des machines publiées par le Laboratoire conjoint de Harbin Institute of Technology. Selon une question donnée, le système doit extraire des fragments du chapitre comme réponse, sous la même forme que Squad. Les indicateurs d'évaluation sont: EM / F1
| Modèle | Ensemble de développement | Test de test | Défi |
|---|---|---|---|
| Bert | 65,5 (64,4) / 84,5 (84,0) | 70.0 (68.7) / 87.0 (86.3) | 18.6 (17.0) / 43.3 (41.3) |
| Ernie | 65,4 (64,3) / 84.7 (84,2) | 69.4 (68.2) / 86.6 (86.1) | 19.6 (17.0) / 44,3 (42,8) |
| Bert-wwm | 66.3 (65.0) / 85.6 (84,7) | 70,5 (69.1) / 87.4 (86.7) | 21.0 (19.3) / 47.0 (43,9) |
| Bert-wwm- | 67.1 (65.6) / 85.7 (85,0) | 71.4 (70.0) / 87.7 (87.0) | 24.0 (20.0) / 47.3 (44,6) |
| Roberta-wwm-ext | 67,4 (66,5) / 87,2 (86,5) | 72.6 (71.4) / 89.4 (88,8) | 26.2 (24.6) / 51.0 (49.1) |
| ROBERTA-WWM-EXT-GARD | 68,5 (67,6) / 88,4 (87,9) | 74.2 (72,4) / 90,6 (90,0) | 31.5 (30.1) / 60.1 (57,5) |
L'ensemble de données DRCD a été publié par le Delta Research Institute, Taiwan, Chine. Sa forme est la même que l'escouade et est un ensemble de données de compréhension en lecture extrait basé sur le chinois traditionnel. Étant donné que les caractères chinois traditionnels sont supprimés d'Ernie, il n'est pas recommandé d'utiliser Ernie (ou de le convertir en chinois simplifié puis de le traiter) sur les données chinoises traditionnelles. Les indicateurs d'évaluation sont: EM / F1
| Modèle | Ensemble de développement | Test de test |
|---|---|---|
| Bert | 83.1 (82.7) / 89.9 (89,6) | 82.2 (81.6) / 89.2 (88,8) |
| Ernie | 73.2 (73.0) / 83.9 (83,8) | 71.9 (71.4) / 82,5 (82,3) |
| Bert-wwm | 84.3 (83.4) / 90,5 (90,2) | 82.8 (81.8) / 89.7 (89.0) |
| Bert-wwm- | 85.0 (84,5) / 91.2 (90,9) | 83.6 (83,0) / 90,4 (89,9) |
| Roberta-wwm-ext | 86.6 (85.9) / 92.5 (92.2) | 85.6 (85.2) / 92.0 (91,7) |
| ROBERTA-WWM-EXT-GARD | 89.6 (89.1) / 94.8 (94,4) | 89,6 (88,9) / 94,5 (94,1) |
L'ensemble de données CJRC est les données de compréhension de la lecture des machines chinoises pour le champ judiciaire publié par le Laboratoire conjoint d'Iflytek. Il convient de noter que les données utilisées dans l'expérience ne sont pas les données finales publiées par l'officiel, et les résultats sont uniquement pour référence. Les indicateurs d'évaluation sont: EM / F1
| Modèle | Ensemble de développement | Test de test |
|---|---|---|
| Bert | 54,6 (54,0) / 75,4 (74,5) | 55.1 (54.1) / 75.2 (74.3) |
| Ernie | 54,3 (53,9) / 75,3 (74,6) | 55.0 (53.9) / 75.0 (73,9) |
| Bert-wwm | 54,7 (54,0) / 75.2 (74,8) | 55.1 (54.1) / 75.4 (74,4) |
| Bert-wwm- | 55,6 (54,8) / 76.0 (75,3) | 55,6 (54,9) / 75.8 (75,0) |
| Roberta-wwm-ext | 58.7 (57,6) / 79.1 (78,3) | 59,0 (57,8) / 79.0 (78,0) |
| ROBERTA-WWM-EXT-GARD | 62.1 (61.1) / 82.4 (81.6) | 62.4 (61.4) / 82.2 (81.0) |
Dans la tâche d'inférence du langage naturel, nous adoptons les données XNLI , qui nécessite que le texte soit divisé en trois catégories: entailment , neutral et contradictory . L'indicateur d'évaluation est: précision
| Modèle | Ensemble de développement | Test de test |
|---|---|---|
| Bert | 77.8 (77,4) | 77,8 (77,5) |
| Ernie | 79.7 (79.4) | 78.6 (78.2) |
| Bert-wwm | 79.0 (78.4) | 78.2 (78.0) |
| Bert-wwm- | 79.4 (78,6) | 78.7 (78,3) |
| Roberta-wwm-ext | 80.0 (79.2) | 78.8 (78,3) |
| ROBERTA-WWM-EXT-GARD | 82.1 (81.3) | 81.2 (80.6) |
Dans la tâche d'analyse des sentiments, l'ensemble de données de classification des émotions binaires Chnsenticorp. L'indicateur d'évaluation est: précision
| Modèle | Ensemble de développement | Test de test |
|---|---|---|
| Bert | 94.7 (94.3) | 95.0 (94,7) |
| Ernie | 95,4 (94,8) | 95,4 (95,3) |
| Bert-wwm | 95.1 (94,5) | 95,4 (95,0) |
| Bert-wwm- | 95,4 (94,6) | 95,3 (94,7) |
| Roberta-wwm-ext | 95.0 (94,6) | 95,6 (94,8) |
| ROBERTA-WWM-EXT-GARD | 95,8 (94,9) | 95,8 (94,9) |
Les deux ensembles de données suivants doivent classer une paire de phrases pour déterminer si la sémantique des deux phrases est la même (tâche de classification binaire).
LCQMC a été publié par le Intelligent Computing Research Center de la Harbin Institute of Technology Shenzhen Graduate School. L'indicateur d'évaluation est: précision
| Modèle | Ensemble de développement | Test de test |
|---|---|---|
| Bert | 89.4 (88.4) | 86.9 (86.4) |
| Ernie | 89.8 (89,6) | 87.2 (87.0) |
| Bert-wwm | 89.4 (89.2) | 87.0 (86.8) |
| Bert-wwm- | 89.6 (89.2) | 87.1 (86.6) |
| Roberta-wwm-ext | 89,0 (88,7) | 86.4 (86.1) |
| ROBERTA-WWM-EXT-GARD | 90,4 (90,0) | 87.0 (86.8) |
BQ Corpus est publié par le Intelligent Computing Research Center de la Harbin Institute of Technology Shenzhen Graduate School et est un ensemble de données pour le domaine bancaire. L'indicateur d'évaluation est: précision
| Modèle | Ensemble de développement | Test de test |
|---|---|---|
| Bert | 86.0 (85,5) | 84,8 (84,6) |
| Ernie | 86.3 (85,5) | 85,0 (84,6) |
| Bert-wwm | 86.1 (85.6) | 85.2 (84.9) |
| Bert-wwm- | 86.4 (85,5) | 85,3 (84,8) |
| Roberta-wwm-ext | 86.0 (85,4) | 85,0 (84,6) |
| ROBERTA-WWM-EXT-GARD | 86.3 (85,7) | 85,8 (84,9) |
Pour les tâches de classification des textes au niveau de la section, nous avons sélectionné Thucnews, un ensemble de données de nouvelles publié par le Laboratory de traitement du langage naturel de l'Université Tsinghua. Nous prenons l'un des sous-ensembles et devons diviser les nouvelles en l'une des 10 catégories. L'indicateur d'évaluation est: précision
| Modèle | Ensemble de développement | Test de test |
|---|---|---|
| Bert | 97.7 (97,4) | 97.8 (97,6) |
| Ernie | 97.6 (97,3) | 97,5 (97,3) |
| Bert-wwm | 98.0 (97,6) | 97.8 (97,6) |
| Bert-wwm- | 97.7 (97,5) | 97.7 (97,5) |
| Roberta-wwm-ext | 98.3 (97,9) | 97.7 (97,5) |
| ROBERTA-WWM-EXT-GARD | 98.3 (97,7) | 97.8 (97,6) |
Voici les résultats expérimentaux sur plusieurs tâches PNL, et seule la comparaison des résultats des tests de test est fournie dans le tableau.
| Modèle | CMRC 2018 | DRCD | Xnli | CSC | LCQMC | Bq | moyenne | Quantité de paramètre |
|---|---|---|---|---|---|---|---|---|
| ROBERTA-WWM-EXT-GARD | 74.2 / 90.6 | 89,6 / 94,5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325m |
| Roberta-wwm-ext | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102m |
| Rbtl3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61m (59,8%) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38m (37,3%) |
Comparaison des effets relatifs:
| Modèle | CMRC 2018 | DRCD | Xnli | CSC | LCQMC | Bq | moyenne | Moyenne de classification |
|---|---|---|---|---|---|---|---|---|
| ROBERTA-WWM-EXT-GARD | 102,2% / 101,3% | 104,7% / 102,7% | 103,0% | 100,2% | 100,7% | 100,9% | 101,9% | 101,2% |
| Roberta-wwm-ext | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| Rbtl3 | 87,2% / 93,3% | 90,2% / 93,0% | 93,9% | 98,5% | 98,5% | 98,4% | 94,3% | 97,35% |
| RBT3 | 85,7% / 91,5% | 87,6% / 91,2% | 91,8% | 97,1% | 98,5% | 98,0% | 92,9% | 96,35% |
Bienvenue dans le petit modèle chinois pré-tracé Minirbt avec de meilleurs résultats: https://github.com/iflytek/minirbt
BERT ou d'autres modèles) et doit être ajusté en fonction de la tâche cible.ERNIE est très différent de BERT / BERT-wwm , alors assurez-vous d'ajuster le taux d'apprentissage lors de l'utilisation ERNIE (sur la base des résultats expérimentaux ci-dessus, le taux d'apprentissage initial requis par ERNIE est relativement élevé).BERT / BERT-wwm utilise des données Wikipedia pour la formation, elles sont meilleures pour modéliser des textes formels; Alors ERNIE utilise des données de réseau supplémentaires telles que Baidu Tieba et Zhi, qui présente des avantages dans la modélisation des textes informels (comme Weibo, etc.).BERT et BERT-wwm ont de meilleurs résultats.BERT ou BERT-wwm . Parce que nous avons constaté qu'il n'y a presque pas de chinois traditionnel dans la liste de vocabulaire d' ERNIE . Pour faciliter tout le monde pour télécharger, apportez le modèle anglais BERT-large (wwm) officiellement publié par Google :
BERT-Large, Uncased (Whole Word Masking) : 24 couches, 1024, 16 têtes, 340 m de paramètres
BERT-Large, Cased (Whole Word Masking) : 24 couches, 1024, 16 têtes, 340 m de paramètres
Q: Comment utiliser ce modèle?
R: Comment utiliser le Bert chinois publié par Google, comment l'utiliser. Le texte n'a pas besoin de passer par la segmentation des mots, et WWM n'affecte que le processus de pré-formation et n'affecte pas l'entrée des tâches en aval.
Q: Y a-t-il un code de pré-formation fourni?
R: Malheureusement, je ne peux pas fournir de code pertinent. Vous pouvez vous référer aux n ° 10 et # 13 pour l'implémentation.
Q: Où télécharger un certain ensemble de données?
R: Veuillez vérifier le répertoire data . README.md dans le répertoire des tâches indique la source de données. Pour le contenu protégé par le droit d'auteur, veuillez rechercher par vous-même ou contacter l'auteur d'origine pour obtenir des données.
Q: Sera-t-il prévu de publier un modèle plus grand? Par exemple, la version Bert-Large-WWM?
R: Si nous obtenons de meilleurs résultats de l'expérience, nous envisagerons de libérer une version plus grande.
Q: Vous mentez! Vous ne pouvez pas reproduire le résultat?
R: Dans la tâche en aval, nous avons adopté le modèle le plus simple. Par exemple, pour les tâches de classification, nous utilisons directement run_classifier.py (fourni par Google). Si la valeur moyenne ne peut pas être atteinte, cela signifie qu'il y a un bug dans l'expérience elle-même. Veuillez le vérifier attentivement. Il existe de nombreux facteurs aléatoires pour la valeur la plus élevée, et nous ne pouvons garantir que nous pouvons atteindre la valeur la plus élevée. Un autre facteur reconnu: la réduction de la taille du lot réduira considérablement l'effet expérimental. Pour plus de détails, veuillez vous référer à la question pertinente du répertoire Bert et XLNET.
Q: J'obtiendrai de meilleurs résultats que vous!
R: Félicitations.
Q: Combien de temps faut-il pour s'entraîner et quel équipement a-t-il formé?
R: La formation a été terminée dans la version Google TPU V3 (128g HBM). La formation Bert-WWM prend environ 1,5 jours, tandis que Bert-WWM-EXT prend plusieurs semaines (plus de données sont utilisées pour itérer davantage). Il convient de noter que lors de l'étape de pré-formation, nous utilisons LAMB Optimizer (implémentation de la version TensorFlow). Cet optimiseur a un bon support pour les grands lots. Lorsque vous affligez les tâches en aval, nous utilisons AdamWeightDecayOptimizer par défaut de Bert.
Q: Qui est Ernie?
R: Le modèle Ernie dans ce projet fait spécifiquement référence à l'Ernie proposé par Baidu, plutôt qu'à l'Ernie publié par l'Université Tsinghua sur ACL 2019.
Q: L'effet de Bert-WWM n'est pas très bon dans toutes les tâches
R: Le but de ce projet est de fournir aux chercheurs des modèles pré-formés diversifiés, en sélectionnant librement Bert, Ernie ou Bert-WWM. Nous fournissons uniquement des données expérimentales, et nous devons toujours faire de notre mieux dans nos propres tâches pour tirer des conclusions. Un autre modèle, un autre choix.
Q: Pourquoi certains ensembles de données ne sont-ils pas essayés?
R: Pour être franc, je ne suis pas d'humeur à trouver plus de données; 2) Je n'ai pas à le faire; 3) Je n'ai pas d'argent;
Q: Évaluons brièvement ces modèles
R: Chacun a son propre objectif et ses propres forces. La recherche et le développement du traitement du langage naturel chinois nécessite des efforts conjoints de toutes les parties.
Q: Quel est le nom du prochain modèle pré-entraîné que vous prévoyez?
R: Peut-être que ça s'appelle Zoe. Zoe: intégres zéro-shot à partir du modèle de langue
Q: Plus de détails sur RoBERTa-wwm-ext ?
R: Nous intégrons les avantages de Roberta et Bert-WWM pour faire une combinaison naturelle des deux. La différence entre les modèles de ce répertoire est la suivante:
1) Utilisez la stratégie WWM pour masquer au stade pré-formation (mais pas de masquage dynamique)
2) Annuler simplement la perte de prédiction de phrase suivante (NSP)
3) n'utilise plus le mode de formation de max_len = 128 puis max_len = 512, entraînez directement max_len = 512
4) étendre les étapes de formation de manière appropriée
Il convient de noter que ce modèle n'est pas le modèle Roberta d'origine, mais n'est qu'un modèle Bert formé à une méthode de formation similaire à Roberta, à savoir Bert de Roberta. Par conséquent, lorsque vous utilisez des tâches en aval et des modèles de conversion, veuillez les traiter dans Bert, plutôt que Roberta.
Si les ressources ou les technologies de ce projet sont utiles à vos travaux de recherche, veuillez vous référer au document suivant dans l'article.
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
Le premier auteur est partiellement financé par le programme TPU Research Cloud de Google .
Ce projet n'est pas le modèle chinois Bert-WWM officiellement publié par Google. Dans le même temps, ce projet n'est pas un produit officiel du Harbin Institute of Technology ou Iflytek. Les résultats expérimentaux présentés dans le rapport technique montrent uniquement que les performances dans un ensemble de données spécifiques et une combinaison hyperparamètre ne représente pas la nature de chaque modèle. Les résultats expérimentaux peuvent changer en raison de graines de nombre aléatoire et de dispositifs informatiques. Le contenu de ce projet concerne uniquement la référence de la recherche technique et n'est pas utilisé comme base de conclusion. Les utilisateurs peuvent utiliser le modèle à tout moment dans le cadre de la licence, mais nous ne sommes pas responsables des pertes directes ou indirectes causées par l'utilisation du contenu du projet.
Bienvenue à suivre le compte officiel officiel de WECHAT de Iflytek Joint Laboratory pour en savoir plus sur les dernières tendances techniques.

Si vous avez des questions, veuillez la soumettre dans le problème de GitHub.