Vereinfachtes Chinesisch | Englisch

Chinesischer Macbert | Chinesische Elektrik | Chinesische xlnet | Knowledge Destillation Tool Textbrewer | Modellschneidwerkzeug Textpruner
Weitere Ressourcen, die von HFL veröffentlicht wurden: https://github.com/ymcui/hfl-anthology
2023/3/28 Open Source Chinese Lama & Alpaca Big Model, das schnell auf dem PC eingesetzt und erfahren werden kann, https://github.com/ymcui/chinese-lama-alpaca
2022/3/30 Veröffentlicht ein neues vorgeburtes Modell
2021/12/17 Veröffentlicht das Model Cropping Tool TextPruner: https://github.com/airaria/textpruner
2021/10/24 veröffentlicht das erste vorgeborene Modell für ethnische Minderheitensprachen: https://github.com/ymcui/chinese-minority-plm
2021/7/21 Das Buch "Natural Language Processing: Methoden basierend auf vorgeborenen Modellen" wurde offiziell veröffentlicht.
2020/11/3 Vorausgebildeter chinesischer Macbert wurde veröffentlicht und seine Nutzungsmethode entspricht der von Bert.
2020/9/15 Das Papier "Überarbeitung vorgebliebener Modelle für die chinesische Verarbeitung natürlicher Sprache" wurde als langer Artikel mit den Ergebnissen von EMNLP eingestellt.
| Kapitel | beschreiben |
|---|---|
| Einführung | Kurze Einführung in Macbert |
| herunterladen | Laden Sie Macbert herunter |
| Schnelles Laden | So verwenden Sie Transformatoren schnell laden Modelle |
| Grundlinieneffekt | Auswirkungen auf chinesische NLP -Aufgaben |
| FAQ | Häufig gestellte Fragen |
| Zitat | Artikelzitatinformationen |
Macbert ist eine verbesserte Version von Bert, die das fehlerkorrigierte Mask-Sprachmodell (MLM als Korrektur, MAC) vor der Training einführt und das Problem von "Voraussetzungsaufgaben" lindert.
Im Mask -Sprachmodell (MLM) wird das [Masken] -T -Tag zur Maskierung eingeführt, aber das [Mask] -Tag erscheint nicht in nachgeschalteten Aufgaben. In Macbert verwenden wir ähnliche Wörter, um das [Mask] -Tag zu ersetzen . Ähnliche Wörter werden vom Tool von Synonyme Toolkit (Wang und Hu, 2017) erhalten, und der Algorithmus wird basierend auf Word2VEC berechnet (Mikolov et al., 2013). Gleichzeitig haben wir auch die WWM (WWM) und N-Gramm-Maskierungstechnologien eingeführt. Beim Maskieren von N-Gram suchen wir ähnliche Wörter für jedes Wort in n-Gramm auf. Wenn es keine ähnlichen Wörter ersetzt, werden wir zufällige Wörter für den Austausch verwenden.
Das Folgende ist ein Beispiel für ein Trainingsbeispiel.
| Beispiel | |
|---|---|
| Originalsatz | Wir verwenden ein Sprachmodell, um die Wahrscheinlichkeit des nächsten Wortes vorherzusagen. |
| Mlm | Wir verwenden eine Sprache [m] zu [m] ## di ## ct die Pro [m] ## Fähigkeit des nächsten Wortes. |
| Ganzes Wortmaskieren | Wir verwenden eine Sprache [m] zu [m] [m] [m] die [m] [m] des nächsten Wortes. |
| N-Gramm-Maskierung | Wir verwenden ein [m] [m] zu [m] [m] das [m] [m] das [m] [m] [m] nächste Wort. |
| MLM als Korrektur | Wir verwenden ein Textsystem, um die Fähigkeit des nächsten Wortes PO ## Si ## zu CA ## LC ## ulatieren. |
Macberts Hauptframework ist genau das gleiche wie Bert, was nahtlose Übergänge ermöglicht, ohne vorhandenen Code zu ändern.
Weitere Informationen finden Sie in unserem Artikel: Überprüfen Sie die vorgebrachten Modelle für die Verarbeitung chinesischer natürlicher Sprache
Bietet hauptsächlich Modell -Downloads für TensorFlow 1.x Version.
MacBERT-large, Chinese : 24-Schicht, 1024 versteckte, 16-köpfige, 324m ParameterMacBERT-base, Chinese : 12-Schicht, 768 versteckte, 12-Heads, 102 m Parameter| Modell | Google Drive | Baidu Disk | Größe |
|---|---|---|---|
MacBERT-large, Chinese | Tensorflow | Tensorflow (PW: Zejf) | 1,2g |
MacBERT-base, Chinese | Tensorflow | Tensorflow (PW: 61GA) | 383 m |
Wenn Sie eine Pytorch- oder TensorFlow2 -Version des Modells benötigen:
Laden Sie die Schritte herunter (Sie können das gesamte Verzeichnis auch direkt mit Git klonen):
Macbert -Modelle können schnell durch Transformatoren geladen werden.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Hinweis: Bitte verwenden Sie BertTokenizer und Bertmodel, um Macbert -Modelle zu laden!
Der entsprechende MODEL_NAME lautet wie folgt:
| Originalmodell | Modellanrufname |
|---|---|
| Macbert-Large | HFL/Chinese-Macbert-Large |
| Macbert-Base | HFL/Chinese-Macbert-Base |
Hier finden Sie eine Anzeige des Effekts von Macbert auf 6 nachgeschaltete Aufgaben (siehe Papier für weitere Ergebnisse):
Um die Stabilität der Ergebnisse zu gewährleisten, geben wir den Durchschnittswert (in Klammern) und den Maximalwert der unabhängigen Läufe zehnmal gleichzeitig an.
Der CMRC 2018 -Datensatz sind die vom Joint Laboratory of Harbin Institute of Technology veröffentlichten chinesischen Daten des Maschinenlesung. Laut einer bestimmten Frage muss das System Fragmente aus dem Kapitel als Antwort in der gleichen Form wie Kader extrahieren. Bewertungsindikatoren sind: EM / F1
| Modell | Entwicklung | Prüfen | Herausforderung | #Params |
|---|---|---|---|---|
| Bert-Base | 65,5 (64,4) / 84,5 (84,0) | 70,0 (68,7) / 87,0 (86,3) | 18,6 (17.0) / 43,3 (41,3) | 102 m |
| Bert-wwm | 66,3 (65,0) / 85,6 (84,7) | 70,5 (69,1) / 87,4 (86,7) | 21.0 (19.3) / 47.0 (43,9) | 102 m |
| Bert-wwm-ot | 67,1 (65,6) / 85,7 (85,0) | 71,4 (70,0) / 87,7 (87,0) | 24.0 (20.0) / 47,3 (44,6) | 102 m |
| Roberta-wwm-text | 67,4 (66,5) / 87,2 (86,5) | 72,6 (71,4) / 89,4 (88,8) | 26,2 (24,6) / 51,0 (49,1) | 102 m |
| Elektrikbasis | 68,4 (68,0) / 84,8 (84,6) | 73,1 (72,7) / 87,1 (86,9) | 22,6 (21,7) / 45.0 (43,8) | 102 m |
| Macbert-Base | 68,5 (67,3) / 87,9 (87,1) | 73,2 (72,4) / 89,5 (89,2) | 30,2 (26,4) / 54,0 (52,2) | 102 m |
| Elektrafarge | 69,1 (68,2) / 85,2 (84,5) | 73,9 (72,8) / 87,1 (86,6) | 23.0 (21,6) / 44,2 (43,2) | 324 m |
| Roberta-wwm-text-large | 68,5 (67,6) / 88,4 (87,9) | 74,2 (72,4) / 90,6 (90,0) | 31,5 (30,1) / 60,1 (57,5) | 324 m |
| Macbert-Large | 70,7 (68,6) / 88,9 (88,2) | 74,8 (73,2) / 90,7 (90,1) | 31.9 (29,6) / 60,2 (57,6) | 324 m |
Der DRCD -Datensatz wurde vom Delta Research Institute in Taiwan, China, veröffentlicht. Seine Form ist die gleiche wie der Kader und ein extrahierter Leseverständnis -Datensatz, der auf traditionellen Chinesen basiert. Da traditionelle chinesische Charaktere von Ernie entfernt werden, wird nicht empfohlen, Ernie (oder es in vereinfachte Chinesen zu vereinfachen und dann verarbeiten) für traditionelle chinesische Daten zu verwenden. Bewertungsindikatoren sind: EM / F1
| Modell | Entwicklung | Prüfen | #Params |
|---|---|---|---|
| Bert-Base | 83.1 (82,7) / 89,9 (89,6) | 82,2 (81,6) / 89,2 (88,8) | 102 m |
| Bert-wwm | 84,3 (83,4) / 90,5 (90,2) | 82,8 (81,8) / 89,7 (89,0) | 102 m |
| Bert-wwm-ot | 85,0 (84,5) / 91,2 (90,9) | 83,6 (83,0) / 90,4 (89,9) | 102 m |
| Roberta-wwm-text | 86,6 (85,9) / 92,5 (92,2) | 85,6 (85,2) / 92.0 (91,7) | 102 m |
| Elektrikbasis | 87,5 (87,0) / 92,5 (92,3) | 86,9 (86,6) / 91,8 (91,7) | 102 m |
| Macbert-Base | 89,4 (89,2) / 94,3 (94,1) | 89,5 (88,7) / 93,8 (93,5) | 102 m |
| Elektrafarge | 88,8 (88,7) / 93,3 (93,2) | 88,8 (88,2) / 93,6 (93,2) | 324 m |
| Roberta-wwm-text-large | 89,6 (89,1) / 94,8 (94,4) | 89,6 (88,9) / 94,5 (94,1) | 324 m |
| Macbert-Large | 91,2 (90,8) / 95,6 (95,3) | 91,7 (90,9) / 95,6 (95,3) | 324 m |
In der Aufgabe der natürlichen Sprache inferenzieren wir XNLI -Daten, wodurch der Text in drei Kategorien unterteilt werden muss: entailment , neutral und contradictory . Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklung | Prüfen | #Params |
|---|---|---|---|
| Bert-Base | 77,8 (77,4) | 77,8 (77,5) | 102 m |
| Bert-wwm | 79,0 (78,4) | 78,2 (78,0) | 102 m |
| Bert-wwm-ot | 79,4 (78,6) | 78,7 (78,3) | 102 m |
| Roberta-wwm-text | 80.0 (79,2) | 78,8 (78,3) | 102 m |
| Elektrikbasis | 77,9 (77,0) | 78,4 (77,8) | 102 m |
| Macbert-Base | 80.3 (79,7) | 79,3 (78,8) | 102 m |
| Elektrafarge | 81,5 (80,8) | 81.0 (80,9) | 324 m |
| Roberta-wwm-text-large | 82.1 (81,3) | 81,2 (80,6) | 324 m |
| Macbert-Large | 82.4 (81,8) | 81,3 (80,6) | 324 m |
In der Aufgabe der Sentiment -Analyse ist der Datensatz der binären Emotionsklassifizierung chnSenticorp. Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklung | Prüfen | #Params |
|---|---|---|---|
| Bert-Base | 94.7 (94,3) | 95.0 (94,7) | 102 m |
| Bert-wwm | 95.1 (94,5) | 95.4 (95.0) | 102 m |
| Bert-wwm-ot | 95,4 (94,6) | 95.3 (94.7) | 102 m |
| Roberta-wwm-text | 95.0 (94,6) | 95,6 (94,8) | 102 m |
| Elektrikbasis | 93,8 (93,0) | 94,5 (93,5) | 102 m |
| Macbert-Base | 95.2 (94,8) | 95.6 (94,9) | 102 m |
| Elektrafarge | 95.2 (94,6) | 95.3 (94,8) | 324 m |
| Roberta-wwm-text-large | 95,8 (94,9) | 95,8 (94,9) | 324 m |
| Macbert-Large | 95.7 (95.0) | 95,9 (95.1) | 324 m |
LCQMC wurde vom Intelligent Computing Research Center der Harbin Institute of Technology Shenzhen Graduate School veröffentlicht. Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklung | Prüfen | #Params |
|---|---|---|---|
| Bert | 89,4 (88,4) | 86,9 (86,4) | 102 m |
| Bert-wwm | 89,4 (89,2) | 87,0 (86,8) | 102 m |
| Bert-wwm-ot | 89,6 (89,2) | 87,1 (86,6) | 102 m |
| Roberta-wwm-text | 89,0 (88,7) | 86,4 (86,1) | 102 m |
| Elektrikbasis | 90,2 (89,8) | 87,6 (87,3) | 102 m |
| Macbert-Base | 89,5 (89,3) | 87,0 (86,5) | 102 m |
| Elektrafarge | 90,7 (90,4) | 87,3 (87,2) | 324 m |
| Roberta-wwm-text-large | 90,4 (90,0) | 87,0 (86,8) | 324 m |
| Macbert-Large | 90,6 (90,3) | 87,6 (87,1) | 324 m |
BQ Corpus wird vom Intelligent Computing Research Center des Harbin Institute of Technology Shenzhen Graduate School veröffentlicht und ist ein Datensatz für das Bankenbereich. Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklung | Prüfen | #Params |
|---|---|---|---|
| Bert | 86,0 (85,5) | 84,8 (84,6) | 102 m |
| Bert-wwm | 86,1 (85,6) | 85,2 (84,9) | 102 m |
| Bert-wwm-ot | 86,4 (85,5) | 85,3 (84,8) | 102 m |
| Roberta-wwm-text | 86,0 (85,4) | 85,0 (84,6) | 102 m |
| Elektrikbasis | 84,8 (84,7) | 84,5 (84,0) | 102 m |
| Macbert-Base | 86,0 (85,5) | 85,2 (84,9) | 102 m |
| Elektrafarge | 86,7 (86,2) | 85,1 (84,8) | 324 m |
| Roberta-wwm-text-large | 86,3 (85,7) | 85,8 (84,9) | 324 m |
| Macbert-Large | 86,2 (85,7) | 85,6 (85,0) | 324 m |
F1: Gibt es eine englische Version von Macbert?
A1: Im Moment keine.
F2: Wie benutzt ich Macbert?
A2: Genau wie Bert müssen Sie nur die Modelldatei und die Konfiguration ersetzen, um sie zu verwenden. Natürlich können Sie auch andere vorbereitete Modelle weiter schulen, indem Sie unser Modell laden (d. H. Abschnitt Transformatoren initialisieren).
F3: Können Sie Macbert -Trainingscode bereitstellen?
A3: Es gibt noch keinen Open -Source -Plan.
F4: Kann ich Open-Source-Korpus vorgebreitet?
A4: Wir können kein Open-Source-Trainingskorpus, da es kein Recht gibt, entsprechend neu zu veröffentlichen. Es gibt einige Open -Source -chinesische Corpus -Ressourcen auf GitHub, die Sie mehr aufmerksam machen und nutzen können.
F5: Gibt es Pläne, Macbert auf einem größeren Korpus und einer Open Source zu trainieren?
A5: Wir haben vorerst keine Pläne.
Wenn die Ressourcen in diesem Projekt für Ihre Forschung hilfreich sind, geben Sie bitte das folgende Papier an.
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
oder:
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
Vielen Dank an Google TPU Research Cloud (TFRC) für die Unterstützung für Computerressourcen.
Wenn Sie Fragen haben, senden Sie diese bitte in Github -Problem.