Téléchargement BertWithPretrained - Téléchargement du code source BertWithPretrained

Prétraité avec Bertwith

[中文 | anglais]

Ce projet est une implémentation du modèle Bert et de ses tâches en aval connexes basées sur le cadre Pytorch. Il comprend également une explication détaillée du modèle Bert et des principes de chaque tâche sous-jacente.

Bert: pré-formation des transformateurs bidirectionnels profonds pour la compréhension du langage

Avant d'apprendre à utiliser ce projet, vous devez connaître les principes pertinents du transformateur par ces trois exemples: traduction, classification, génération de couplage.

Implémentations

1. Implémentation du modèle Bert à partir de zéro
2. Tâche de classification de texte chinois basée sur le modèle de pré-formation de Bert
3. Tâche d'implication de texte anglais (MNLI) basée sur le modèle pré-entraîné Bert
4. Tâche de choix multiple en anglais (SWAG) basé sur le modèle pré-entraîné Bert
5. Tâche de réponse à la question de la question anglaise (Squad) basée sur le modèle pré-entraîné Bert
6. Formation des tâches Bert à partir de zéro basées sur les tâches NSL et MLM
7. Tâche de reconnaissance des entités nommée basée sur le modèle de pré-formation de Bert

Structure du projet

bert_base_chinese contient le modèle de pré-formation et les fichiers de configuration Bert_Base_Chinese
bert_base_uncased_english contient le modèle de pré-formation et les fichiers de configuration de pré-formation et de configuration Bert_Base_Uncaslish
data contient tous les ensembles de données utilisés par chaque tâche en aval.
- SingleSentenceClassification est un ensemble de données de classification chinois de 15 classes de Toutiao.
- PairSentenceClassification est l'ensemble de données de MNLI (le corpus d'inférence du langage naturel multi-genres).
- MultipeChoice est l'ensemble de données de Swag.
- SQuAD est l'ensemble de données de Squad-V1.1.
- WikiText est le corpus anglais Wikipedia pour la pré-formation.
- SongCi est des données Songci pour le modèle chinois pré-formation
- ChineseNER est un ensemble de données utilisé pour former la reconnaissance des entités nommées chinoises.
model est la mise en œuvre de chaque module
- BasicBert contient l'implémentation de Basic Bert
  - Implémentation d'auto-attention MyTransformer.py .
  - Implémentation d'intégration de l'entrée BertEmbedding.py .
  - BertConfig.py a utilisé pour importer la configuration de config.json .
  - Implémentation Bert.py de Bert.
- DownstreamTasks contient toutes les tâches en aval de l'implémentation
  - BertForSentenceClassification.py Stri phrase (s) Implémentation de classification.
  - BertForMultipleChoice.py Implémentation de choix multiple.
  - Implémentation BertForQuestionAnswering.py Question Réponse (Span de texte).
  - BertForNSPAndMLM.py NSP et implémentation MLM.
  - Implémentation de classification de token BertForTokenClassification.py .
Implémentation de Task de la formation et de l'inférence pour chaque tâche en aval
- TaskForSingleSentenceClassification.py Taks de la mise en œuvre de la classification des phrases unique tels que la classification des phrases.
- TaskForPairSentence.py Tâche de la mise en œuvre de la classification des phrases par paire telle que MNLI.
- TaskForMultipleChoice.py Tâche de l'implémentation de choix multiple tel que SWAG.
- TaskForSQuADQuestionAnswering.py Task OS Question Amplementation (Span) Implémentation telle que Squad.
- TaskForPretraining.py Tâches de la mise en œuvre NSP ANS MLM.
- TaskForChineseNER.py Tâche de la mise en œuvre de la reconnaissance des entités nommées chinoises.
test les cas de test de chaque tâche en aval.
utils
- data_helpers.py est le module de prétraitement des données et de création de données de chaque tâche en aval;
- log_helper.py est le module d'impression logarithmique.
- creat_pretraining_data.py a utilisé pour construire l'ensemble de données de la tâche de pré-formation Bert.

Environnement python

Version Python 3.6 et Packages

 torch == 1.5 . 0
torchtext == 0.6 . 0
torchvision == 0.6 . 0
transformers == 4.5 . 1
numpy == 1.19 . 5
pandas == 1.1 . 5
scikit - learn == 0.24 . 0
tqdm == 4.61 . 0

Usage

Étape 1. Télécharger l'ensemble de données

Télécharger chaque ensemble de données et le modèle pré-entraîné Bert correspondant (si vide) et le mettre dans le répertoire correspondant. Pour plus de détails, consultez le fichier README.md dans chaque répertoire de données ( data ).

Étape 2. Runing

Aller au répertoire Tasks et exécuter le modèle.

2.1 Tâche de classification du texte chinois

Structure du modèle et traitement des données:

 python TaskForSingleSentenceClassification . py

Résultat:

 - - INFO : Epoch : 0 , Batch [ 0 / 4186 ], Train loss : 2.862 , Train acc : 0.125
- - INFO : Epoch : 0 , Batch [ 10 / 4186 ], Train loss : 2.084 , Train acc : 0.562
- - INFO : Epoch : 0 , Batch [ 20 / 4186 ], Train loss : 1.136 , Train acc : 0.812        
- - INFO : Epoch : 0 , Batch [ 30 / 4186 ], Train loss : 1.000 , Train acc : 0.734
...
- - INFO : Epoch : 0 , Batch [ 4180 / 4186 ], Train loss : 0.418 , Train acc : 0.875
- - INFO : Epoch : 0 , Train loss : 0.481 , Epoch time = 1123.244 s
...
- - INFO : Epoch : 9 , Batch [ 4180 / 4186 ], Train loss : 0.102 , Train acc : 0.984
- - INFO : Epoch : 9 , Train loss : 0.100 , Epoch time = 1130.071 s
- - INFO : Accurcay on val 0.884
- - INFO : Accurcay on val 0.888

2.2 Implication du texte

Structure du modèle et traitement des données:

 python TaskForPairSentenceClassification . py

Résultat:

 - - INFO : Epoch : 0 , Batch [ 0 / 17181 ], Train loss : 1.082 , Train acc : 0.438
- - INFO : Epoch : 0 , Batch [ 10 / 17181 ], Train loss : 1.104 , Train acc : 0.438
- - INFO : Epoch : 0 , Batch [ 20 / 17181 ], Train loss : 1.129 , Train acc : 0.250     
- - INFO : Epoch : 0 , Batch [ 30 / 17181 ], Train loss : 1.063 , Train acc : 0.375
...
- - INFO : Epoch : 0 , Batch [ 17180 / 17181 ], Train loss : 0.367 , Train acc : 0.909
- - INFO : Epoch : 0 , Train loss : 0.589 , Epoch time = 2610.604 s
...
- - INFO : Epoch : 9 , Batch [ 0 / 17181 ], Train loss : 0.064 , Train acc : 1.000
- - INFO : Epoch : 9 , Train loss : 0.142 , Epoch time = 2542.781 s
- - INFO : Accurcay on val 0.827
- - INFO : Accurcay on val 0.830

2.3 Tâche de choix multiple (SWAG)

Structure du modèle et traitement des données:

 python TaskForMultipleChoice . py

Résultat:

[ 2021 - 11 - 11 21 : 32 : 50 ] - INFO : Epoch : 0 , Batch [ 0 / 4597 ], Train loss : 1.433 , Train acc : 0.250
[ 2021 - 11 - 11 21 : 32 : 58 ] - INFO : Epoch : 0 , Batch [ 10 / 4597 ], Train loss : 1.277 , Train acc : 0.438
[ 2021 - 11 - 11 21 : 33 : 01 ] - INFO : Epoch : 0 , Batch [ 20 / 4597 ], Train loss : 1.249 , Train acc : 0.438
        ......
[ 2021 - 11 - 11 21 : 58 : 34 ] - INFO : Epoch : 0 , Batch [ 4590 / 4597 ], Train loss : 0.489 , Train acc : 0.875
[ 2021 - 11 - 11 21 : 58 : 36 ] - INFO : Epoch : 0 , Batch loss : 0.786 , Epoch time = 1546.173 s
[ 2021 - 11 - 11 21 : 28 : 55 ] - INFO : Epoch : 0 , Batch [ 0 / 4597 ], Train loss : 1.433 , Train acc : 0.250
[ 2021 - 11 - 11 21 : 30 : 52 ] - INFO : He is throwing darts at a wall . A woman , squats alongside flies side to side with his gun .  ## False
[ 2021 - 11 - 11 21 : 30 : 52 ] - INFO : He is throwing darts at a wall . A woman , throws a dart at a dartboard .   ## False
[ 2021 - 11 - 11 21 : 30 : 52 ] - INFO : He is throwing darts at a wall . A woman , collapses and falls to the floor .   ## False
[ 2021 - 11 - 11 21 : 30 : 52 ] - INFO : He is throwing darts at a wall . A woman , is standing next to him .    ## True
[ 2021 - 11 - 11 21 : 30 : 52 ] - INFO : Accuracy on val 0.794

2.4 Tâche de réponse aux questions (Squad)

Structure du modèle et traitement des données:

 python TaskForSQuADQuestionAnswering . py

Résultat:

[ 2022 - 01 - 02 14 : 42 : 17 ]缓存文件 ~ / BertWithPretrained / data / SQuAD / dev - v1_128_384_64 . pt 不存在，重新处理并缓存！
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : << << << <<  进入新的example  >> > >> >> >>
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## 正在预处理数据 utils.data_helpers is_training = False
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## 问题 id: 56be5333acb8001400a5030d
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## 原始问题 text: Which performers joined the headliner during the Super Bowl 50 halftime show?
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## 原始描述 text: CBS broadcast Super Bowl 50 in the U.S., and charged an average of $5 million for a  ....
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## 上下文长度为：87, 剩余长度 rest_len 为 ： 367
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## input_tokens: ['[CLS]', 'which', 'performers', 'joined', 'the', 'headline', '##r', 'during', 'the', ...]
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## input_ids:[101, 2029, 9567, 2587, 1996, 17653, 2099, 2076, 1996, 3565, 4605, 2753, 22589, 2265, 1029, 102, 6568, ....]
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## segment ids:[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...]
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : ## orig_map:{16: 0, 17: 1, 18: 2, 19: 3, 20: 4, 21: 5, 22: 6, 23: 7, 24: 7, 25: 7, 26: 7, 27: 7, 28: 8, 29: 9, 30: 10,....}
[ 2022 - 01 - 02 14 : 42 : 17 ] - DEBUG : == == == == == == == == == == ==
....
[ 2022 - 01 - 02 15 : 13 : 50 ] - INFO : Epoch : 0 , Batch [ 810 / 7387 ] Train loss : 0.998 , Train acc : 0.708
[ 2022 - 01 - 02 15 : 13 : 55 ] - INFO : Epoch : 0 , Batch [ 820 / 7387 ] Train loss : 1.130 , Train acc : 0.708
[ 2022 - 01 - 02 15 : 13 : 59 ] - INFO : Epoch : 0 , Batch [ 830 / 7387 ] Train loss : 1.960 , Train acc : 0.375
[ 2022 - 01 - 02 15 : 14 : 04 ] - INFO : Epoch : 0 , Batch [ 840 / 7387 ] Train loss : 1.933 , Train acc : 0.542
......
[ 2022 - 01 - 02 15 : 15 : 27 ] - INFO :  ### Quesiotn: [CLS] when was the first university in switzerland founded..
[ 2022 - 01 - 02 15 : 15 : 27 ] - INFO :    ## Predicted answer: 1460
[ 2022 - 01 - 02 15 : 15 : 27 ] - INFO :    ## True answer: 1460
[ 2022 - 01 - 02 15 : 15 : 27 ] - INFO :    ## True answer idx: (tensor(46, tensor(47))
[ 2022 - 01 - 02 15 : 15 : 27 ] - INFO :  ### Quesiotn: [CLS] how many wards in plymouth elect two councillors?
[ 2022 - 01 - 02 15 : 15 : 27 ] - INFO :    ## Predicted answer: 17 of which elect three .....
[ 2022 - 01 - 02 15 : 15 : 27 ] - INFO :    ## True answer: three
[ 2022 - 01 - 02 15 : 15 : 27 ] - INFO :    ## True answer idx: (tensor(25, tensor(25))

运行结束后， data/SQuAD目录中会生成一个名为best_result.json的预测文件，此时只需要切换到该目录下，并运行以下代码即可得到在dev-v1.1.json ：:

 python evaluate - v1 . 1. py dev - v1 . 1.j son best_result . json

"exact_match" : 80.879848628193 , "f1" : 88.338575234135

2,5 tâches NSL et MLM

Structure du modèle et traitement des données:

 if __name__ == '__main__' :
    config = ModelConfig ()
    train ( config )
    sentences_1 = [ "I no longer love her, true, but perhaps I love her." ,
                   "Love is so short and oblivion so long." ]

    sentences_2 = [ "我住长江头，君住长江尾。" ,
                   "日日思君不见君，共饮长江水。" ,
                   "此水几时休，此恨何时已。" ,
                   "只愿君心似我心，定不负相思意。" ]
    inference ( config , sentences_2 , masked = False , language = 'zh' )

Résultat:

 - INFO : ## 成功载入已有模型进行推理……
- INFO :  ### 原始：我住长江头，君住长江尾。
- INFO :   ## 掩盖：我住长江头，[MASK]住长[MASK]尾。
- INFO :   ## 预测：我住长江头，君住长河尾。  
- INFO : == == == == == == == == == ==
- INFO :  ### 原始：日日思君不见君，共饮长江水。
- INFO :   ## 掩盖：日日思君不[MASK]君，共[MASK]长江水。
- INFO :   ## 预测：日日思君不见君，共饮长江水。
#   ......

2.6 Tâche de reconnaissance des entités nommée

Structure du modèle et traitement des données:

 if __name__ == '__main__' :
    config = ModelConfig ()
    train ( config )
    sentences = [ '智光拿出石壁拓文为乔峰详述事情始末，乔峰方知自己原本姓萧，乃契丹后族。' ,
                 '当乔峰问及带头大哥时，却发现智光大师已圆寂。' ,
                 '乔峰、阿朱相约找最后知情人康敏问完此事后，就到塞外骑马牧羊，再不回来。' ]
    inference ( config , sentences )

Résultat de la formation:

 - INFO : Epoch : [ 1 / 10 ], Batch [ 620 / 1739 ], Train Loss : 0.115 , Train acc : 0.96386
- INFO : Epoch : [ 1 / 10 ], Batch [ 240 / 1739 ], Train Loss : 0.098 , Train acc : 0.96466
- INFO : Epoch : [ 1 / 10 ], Batch [ 660 / 1739 ], Train Loss : 0.087 , Train acc : 0.96435
......
- INFO :句子：在澳大利亚等西方国家改变反倾销政策中对中国的划分后，不少欧盟人士也认识到，此种划分已背离中国经济迅速发展的现实。
- INFO : 澳大利亚：	LOC
- INFO : 中国：	LOC
- INFO : 欧盟：	LOC
- INFO : 中国： LOC
......
              precision    recall  f1 - score   support

           O       1.00      0.99      1.00     97640
       B - ORG       0.86      0.93      0.89       984
       B - LOC       0.94      0.93      0.94      1934
       B - PER       0.97      0.97      0.97       884
       I - ORG       0.90      0.96      0.93      3945
       I - LOC       0.91      0.95      0.93      2556
       I - PER       0.99      0.98      0.98      1714

    accuracy                           0.99    109657
   macro avg       0.94      0.96      0.95    109657
weighted avg       0.99      0.99      0.99    109657

Résultat de l'inférence:

 - INFO : 句子：智光拿出石壁拓文为乔峰详述事情始末，乔峰方知自己原本姓萧，乃契丹后族。
- INFO : 	智光：	PER
- INFO : 	乔峰：	PER
- INFO : 	乔峰：	PER
- INFO : 	萧：	PER
- INFO : 	丹：	PER
......

Développer

BertWithPretrained

Prétraité avec Bertwith

Implémentations

Structure du projet

Environnement python

Usage

Étape 1. Télécharger l'ensemble de données

Étape 2. Runing

2.1 Tâche de classification du texte chinois

2.2 Implication du texte

2.3 Tâche de choix multiple (SWAG)

2.4 Tâche de réponse aux questions (Squad)

2,5 tâches NSL et MLM

2.6 Tâche de reconnaissance des entités nommée

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express