Chinesische Beschreibung | Englisch

Im Bereich der natürlichen Sprachverarbeitung sind vorgeborene Sprachmodelle (vorgeborene Sprachmodelle) zu einer sehr wichtigen Grundtechnologie geworden. Um die Forschung und Entwicklung der chinesischen Informationsverarbeitung weiter zu fördern, haben wir die chinesische vorgebrachte Modell Bert-WWM auf der Grundlage der gesamten Wortmaskierungstechnologie sowie den Modellen veröffentlicht, die eng mit dieser Technologie verbunden sind: Bert-Wwm-ted, Roberta-wwm-ot, Roberta-wwm-ext-large, RBT3, RBTL3 usw. usw.
Dieses Projekt basiert auf Googles offiziellem Bert: https://github.com/google-research/bert
Chinesische LERT | Chinese Englisch Pert | Chinesischer Macbert | Chinesische Elektrik | Chinesische xlnet | Chinesische Bert | Knowledge Destillation Tool Textbrewer | Modellschneidwerkzeug Textpruner
Siehe weitere Ressourcen,
2023/3/28 Open Source Chinese Lama & Alpaca Big Model, das schnell auf dem PC eingesetzt und erfahren werden kann, https://github.com/ymcui/chinese-lama-alpaca
2023/3/9 Wir schlagen ein multimodales vorgebildetes Modell-VLE in Grafik und Text vor: https://github.com/iflytek/vle
2022/11/15 Wir schlagen das chinesische kleine vorgebildete Modell minirbt vor. Anzeigen: https://github.com/iflytek/minirbt
2022/10/29 Wir schlagen eine vorgebildete Modelllert vor, die sprachliche Informationen integriert. Ansicht: https://github.com/ymcui/lert
2022/3/30 Wir Open Source Ein neues vorgebildetes Modell Pert. Ansicht: https://github.com/ymcui/pert
2021/10/24 IFlytek Joint Laboratory veröffentlichte ein vorgebildetes Modell CINO für ethnische Minderheitensprachen. Ansicht: https://github.com/ymcui/chinese-minority-plm
2021/7/21 "Natürliche Sprachverarbeitung: Methoden, die auf Voraussetzungsmodellen basieren", wurden von vielen Wissenschaftlern des Harbin Institute of Technology SCIR veröffentlicht, und jeder ist eingeladen, es zu kaufen.
2021/1/27 Alle Modelle haben TensorFlow 2 unterstützt. Bitte rufen Sie ihn an oder laden Sie ihn über die Transformers Library herunter. https://huggingface.co/hfl
2020/9/15 Unser Papier "Revisiting vorgebildete Modelle für die chinesische Verarbeitung natürlicher Sprache" wurde als langer Artikel mit den Ergebnissen von EMNLP eingestellt.
2020/8/27 IFL Joint Laboratory hat die Liste in der Bewertung der allgemeinen natürlichen Sprachverständnis der Kleber an der Liste der Leim.
2020/3/23 Das in diesem Verzeichnis veröffentlichte Modell wurde mit Paddlepaddlehub angeschlossen, um das schnelle Laden anzuzeigen
2020/3/11 Um die Anforderungen besser zu verstehen, sind Sie eingeladen, den Fragebogen auszufüllen, um Ihnen bessere Ressourcen bereitzustellen.
2020/2/26 IFLYTEK Joint Laboratory Freisetzende Wissensdestillationsinstrument für Wissensdestillation
2020/1/20 Ich wünsche Ihnen allen viel Glück im Jahr der Ratte. Dieses Mal wurden RBT3 und RBTL3 (3-Layer Roberta-Wwm-Outd-Base/Large) freigesetzt, um das kleine Parametermengenmodell anzuzeigen.
2019/12/19 Das in diesem Verzeichnis veröffentlichte Modell wurde mit Huggingface-Transformern verbunden, um das schnelle Laden anzuzeigen
2019/10/14 Veröffentlichen Sie das Roberta-Wwm-ext-Large-Modell, das chinesische Modell-Download anzeigen
2019/9/10 Veröffentlichung des Roberta-Wwm-ext-Modells und sehen Sie sich den chinesischen Modell-Download an
BERT-wwm-ext
2019/6/20 Erstversion kann das Modell über Google heruntergeladen werden und die inländische Cloud -Festplatte wurde ebenfalls hochgeladen. Überprüfen Sie den chinesischen Modell -Download
| Kapitel | beschreiben |
|---|---|
| Einführung | Einführung in die Grundprinzipien von Bert-wwm |
| Chinesisches Modell herunterladen | Bietet die Download-Adresse von Bert-wwm |
| Schnelles Laden | So verwenden Sie Transformatoren und Paddlehub schnell laden Modelle |
| Modellvergleich | Bietet einen Vergleich der Parameter des Modells in diesem Verzeichnis |
| Chinesischer Basissystemeffekt | Listen Sie einige Auswirkungen chinesischer Basissysteme auf |
| Kleines Parametermengenmodell | Listen Sie die Auswirkungen des kleinen Parametermengenmodells (3-Schicht-Transformator) auf. |
| Empfehlungen für den Gebrauch | Es werden mehrere Vorschläge für die Verwendung chinesischer vorgebildeter Modelle bereitgestellt |
| Laden Sie das englische Modell herunter | Googles offizielle englische Bert-Wwm-Download-Adresse von Google |
| FAQ | FAQs und Antworten |
| Zitat | Technische Berichte in diesem Verzeichnis |
Das WWM (WWM-Word-Maskieren) , das vorübergehend als全词Mask oder整词Mask übersetzt wurde, ist eine verbesserte Version von Bert, die am 31. Mai 2019 von Google veröffentlicht wurde und die die Strategie zur Erzeugung der Trainingsstichproben in der ursprünglichen Vorinstallationsphase hauptsächlich verändert. Einfach ausgedrückt wird die ursprüngliche wortstückbasierte Wortsegmentierungsmethode ein vollständiges Wort in mehrere Unterwörter unterteilt. Beim Generieren von Trainingsproben werden diese getrennten Unterwörter zufällig maskiert. In全词Mask , wenn das Word -Stück Subword eines vollständigen Wortes maskiert ist, werden andere Teile desselben Wortes maskiert, dh全词Mask .
Es ist zu beachten, dass sich die Maske hier auf die verallgemeinerte Maske bezieht (ersetzt durch [Maske]; den ursprünglichen Vokabular beibehalten; zufällig durch ein anderes Wort ersetzt) und nicht auf den Fall beschränkt ist, in dem das Wort durch das [MASK] -Tag ersetzt wird. Weitere detailliertere Beschreibungen und Beispiele finden Sie unter: #4
In ähnlicher Weise wird die Chinesen, da Google offiziell BERT-base, Chinese veröffentlicht hat, durch Charaktere als Granularität geteilt und berücksichtigt das chinesische Partizip (CWS) in traditioneller NLP nicht. Wir haben die Methode der vollständigen Wortmaske auf Chinesisch angewendet, chinesische Wikipedia (einschließlich vereinfachter und traditioneller Chinesen) für das Training verwendet und Harbin Institute of Technology LTP als Word -Segmentierungsinstrument verwendet, dh alle chinesischen Charaktere, aus denen das gleiche Wort besteht, werden zugeordnet.
Der folgende Text zeigt eine Beispielerzeugung der全词Mask . HINWEIS: Aus Gründen des einfachen Verständnisses wird in den folgenden Beispielen nur der Fall des Austauschs des [Masken] -Tages berücksichtigt.
| veranschaulichen | Probe |
|---|---|
| Originaltext | Verwenden Sie Sprachmodelle, um die Wahrscheinlichkeit des nächsten Wortes vorherzusagen. |
| Wort Partiziptext | Verwenden Sie Sprachmodelle, um die Wahrscheinlichkeit des nächsten Wortes vorherzusagen. |
| Originalmaskeneingabe | Verwenden Sie den Typ der Sprache [Maske], um die Pro [Maske] des nächsten Word Pro [Mask] ## Lity zu testen. |
| Vollständige Wortmaskeneingabe | Verwenden Sie die Sprache [Maske] [Maske] zu [Maske] [Maske] Das nächste Wort [Maske] [Maske]. |
Dieses Verzeichnis enthält hauptsächlich Basismodelle, sodass wir die base in der Abkürzung des Modells nicht beschriften. Für Modelle anderer Größen sind die entsprechenden Tags (z. B. groß) markiert.
BERT-large模型: 24 -schichtige, 1024 versteckte, 16-köpfige, 330-m-ParameterBERT-base模型: 12-layer, 768 versteckte, 12-Heads, 110 m ParameterHinweis: Die Open Source -Version enthält nicht das Gewicht von MLM -Aufgaben. Wenn Sie MLM-Aufgaben ausführen müssen, verwenden Sie bitte zusätzliche Daten für die sekundäre Vorausbildung (wie andere nachgeschaltete Aufgaben).
| Modellabkürzung | Materialien | Google Download | Baidu NetDisk -Download |
|---|---|---|---|
RBT6, Chinese | Ext -Daten [1] | - - | TensorFlow (Passwort hniy) |
RBT4, Chinese | Ext -Daten [1] | - - | TensorFlow (Passwort SJPT) |
RBTL3, Chinese | Ext -Daten [1] | Tensorflow Pytorch | TensorFlow (Passwort S6CU) |
RBT3, Chinese | Ext -Daten [1] | Tensorflow Pytorch | TensorFlow (Passwort 5A57) |
RoBERTa-wwm-ext-large, Chinese | Ext -Daten [1] | Tensorflow Pytorch | TensorFlow (Passwort DQQE) |
RoBERTa-wwm-ext, Chinese | Ext -Daten [1] | Tensorflow Pytorch | TensorFlow (Passwort vybq) |
BERT-wwm-ext, Chinese | Ext -Daten [1] | Tensorflow Pytorch | TensorFlow (Passwort WGNT) |
BERT-wwm, Chinese | Chinesisches Wiki | Tensorflow Pytorch | TensorFlow (Passwort QFH8) |
BERT-base, Chinese Google | Chinesisches Wiki | Google Cloud | - - |
BERT-base, Multilingual Cased Google | Mehrsprachiger Wiki | Google Cloud | - - |
BERT-base, Multilingual Uncased Google | Mehrsprachiger Wiki | Google Cloud | - - |
[1] Ext -Daten umfassen: chinesische Wikipedia, andere Enzyklopädien, Nachrichten, Q & A und andere Daten, wobei eine Gesamtzahl von Wörtern 5,4b erreicht.
Wenn Sie die Pytorch -Version benötigen,
1) Bitte konvertieren Sie es selbst durch das von Transformers bereitgestellte Konvertierungsskript.
2) oder laden Sie Pytorch direkt über die offizielle Website von Huggingface herunter: https://huggingface.co/hfl
Download -Methode: Klicken Sie auf ein beliebiges Modell, das Sie herunterladen möchten. → Wählen Sie die Registerkarte "Dateien und Versionen" aus → Laden Sie die entsprechende Modelldatei herunter.
Es wird empfohlen, Baidu NetDisk -Download -Punkte auf dem chinesischen Festland zu verwenden, und in Übersee wird empfohlen, Google -Download -Punkte zu verwenden. Die Größe der Basismodelldatei beträgt ca. 400 m . Dekomprimieren Sie die ZIP-Datei, um die Zip-Datei zu erhalten, um die Tensorflow-Version von BERT-wwm, Chinese zu erhalten, um zu erhalten:
chinese_wwm_L-12_H-768_A-12.zip
|- bert_model.ckpt # 模型权重
|- bert_model.meta # 模型meta信息
|- bert_model.index # 模型index信息
|- bert_config.json # 模型参数
|- vocab.txt # 词表
Unter ihnen sind bert_config.json und vocab.txt genau die gleichen wie die ursprüngliche BERT-base, Chinese von Google. Die Pytorch -Version enthält pytorch_model.bin , bert_config.json und vocab.txt -Dateien.
Wenn Sie sich auf die (Transformers -Bibliothek) verlassen, können die oben genannten Modelle leicht aufgerufen werden.
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
Hinweis: Alle Modelle in diesem Verzeichnis werden mit BertTokenizer und Bertmodel geladen. Verwenden Sie Robertatokenizer/Robertamodel nicht!
Die entsprechende Liste von MODEL_NAME lautet wie folgt:
| Modellname | Model_name |
|---|---|
| Roberta-wwm-text-large | HFL/Chinese-Roberta-wwm-text-large |
| Roberta-wwm-text | HFL/Chinese-Roberta-Wwm-Outd |
| Bert-wwm-ot | HFL/Chinese-Bert-Wwm-EXT |
| Bert-wwm | HFL/Chinese-Bert-Wwm |
| RBT3 | HFL/RBT3 |
| RBTL3 | HFL/RBTL3 |
Wenn Sie sich auf Paddlehub verlassen, können Sie das Modell mit nur einer Codezeile herunterladen und installieren, und mehr als zehn Codezeilen können Aufgaben wie Textklassifizierung, Annotation von Sequenz, Leseverständnis usw. erledigen.
import paddlehub as hub
module = hub.Module(name=MODULE_NAME)
Die entsprechende Liste von MODULE_NAME lautet wie folgt:
| Modellname | Module_Name |
|---|---|
| Roberta-wwm-text-large | Chinese-Roberta-wwm-text-large |
| Roberta-wwm-text | Chinese-Roberta-Wwm-Outd |
| Bert-wwm-ot | Chinese-Bert-Wwm-EXT |
| Bert-wwm | Chinese-Bert-Wwm |
| RBT3 | RBT3 |
| RBTL3 | RBTL3 |
Das Folgende ist eine Zusammenfassung einiger Modelldetails, über die sich jeder mehr Sorgen macht.
| - - | Bert Google | Bert-wwm | Bert-wwm-ot | Roberta-wwm-text | Roberta-wwm-text-large |
|---|---|---|---|---|---|
| Maskierung | Wortstück | WWM [1] | Wwm | Wwm | Wwm |
| Typ | Base | Base | Base | Base | Groß |
| Datenquelle | Wiki | Wiki | Wiki+ext [2] | Wiki+ext | Wiki+ext |
| Trainingstoken # | 0,4b | 0,4b | 5.4b | 5.4b | 5.4b |
| Gerät | TPU POD V2 | TPU V3 | TPU V3 | TPU V3 | TPU POD V3-32 [3] |
| Trainingsschritte | ? | 100K max128 +100k max512 | 1m Max128 +400k max512 | 1m Max512 | 2m Max512 |
| Chargengröße | ? | 2.560 / 384 | 2.560 / 384 | 384 | 512 |
| Optimierer | Adamw | LAMM | LAMM | Adamw | Adamw |
| Vokabular | 21.128 | ~ Bert [4] | ~ Bert | ~ Bert | ~ Bert |
| Init Checkpoint | Zufälliger init | ~ Bert | ~ Bert | ~ Bert | Zufälliger init |
[1] WWM = Ganzes Wortmaskieren
[2] ext = erweiterte Daten
[3] TPU POD V3-32 (512G HBM) entspricht 4 TPU V3 (128 g HBM).
[4]~BERTbedeutet, die Attribute des ursprünglichen chinesischen Berts von Google zu erben
Um die Baseline-Effekte zu vergleichen, haben wir sie auf den folgenden chinesischen Datensätzen getestet, einschließlich Aufgaben句子级und篇章级. Für BERT-wwm-ext , RoBERTa-wwm-ext und RoBERTa-wwm-ext-large haben wir die optimale Lernrate nicht weiter angepasst , sondern die optimale Lernrate von BERT-wwm direkt verwendet.
Beste Lernrate:
| Modell | Bert | Ernie | Bert-wwm* |
|---|---|---|---|
| CMRC 2018 | 3e-5 | 8E-5 | 3e-5 |
| DRCD | 3e-5 | 8E-5 | 3e-5 |
| CJRC | 4e-5 | 8E-5 | 4e-5 |
| Xnli | 3e-5 | 5e-5 | 3e-5 |
| CHNSENTICORP | 2E-5 | 5e-5 | 2E-5 |
| LCQMC | 2E-5 | 3e-5 | 2E-5 |
| BQ Corpus | 3e-5 | 5e-5 | 3e-5 |
| Thucnews | 2E-5 | 5e-5 | 2E-5 |
*Repräsentiert alle Modelle der WWM-Serie (Bert-WWM, Bert-Wwm-Outd, Roberta-Wwm-EXT, Roberta-wwm-text-large)
Im Folgenden sind nur einige Ergebnisse aufgeführt. In unserem technischen Bericht finden Sie die vollständigen Ergebnisse.
Hinweis: Um die Zuverlässigkeit der Ergebnisse zu gewährleisten, laufen wir für dasselbe Modell 10 -mal (unterschiedliche Zufallssamen), um die maximalen und die Durchschnittswerte der Modellleistung (die Durchschnittswerte in Klammern) zu melden. Wenn nichts Unerwartetes passiert, sollte das Ergebnis Ihres Betriebs in diesem Bereich liegen.
Im Bewertungsindikator wird der Durchschnittswert in Klammern dargestellt und der Maximalwert außerhalb der Klammern dargestellt.
Der CMRC 2018 -Datensatz sind die vom Joint Laboratory of Harbin Institute of Technology veröffentlichten chinesischen Daten des Maschinenlesung. Laut einer bestimmten Frage muss das System Fragmente aus dem Kapitel als Antwort in der gleichen Form wie Kader extrahieren. Bewertungsindikatoren sind: EM / F1
| Modell | Entwicklungsset | Testset | Herausforderungssatz |
|---|---|---|---|
| Bert | 65,5 (64,4) / 84,5 (84,0) | 70,0 (68,7) / 87,0 (86,3) | 18,6 (17.0) / 43,3 (41,3) |
| Ernie | 65,4 (64,3) / 84,7 (84,2) | 69,4 (68,2) / 86,6 (86,1) | 19,6 (17.0) / 44,3 (42,8) |
| Bert-wwm | 66,3 (65,0) / 85,6 (84,7) | 70,5 (69,1) / 87,4 (86,7) | 21.0 (19.3) / 47.0 (43,9) |
| Bert-wwm-ot | 67,1 (65,6) / 85,7 (85,0) | 71,4 (70,0) / 87,7 (87,0) | 24.0 (20.0) / 47,3 (44,6) |
| Roberta-wwm-text | 67,4 (66,5) / 87,2 (86,5) | 72,6 (71,4) / 89,4 (88,8) | 26,2 (24,6) / 51,0 (49,1) |
| Roberta-wwm-text-large | 68,5 (67,6) / 88,4 (87,9) | 74,2 (72,4) / 90,6 (90,0) | 31,5 (30,1) / 60,1 (57,5) |
Der DRCD -Datensatz wurde vom Delta Research Institute in Taiwan, China, veröffentlicht. Seine Form ist die gleiche wie der Kader und ein extrahierter Leseverständnis -Datensatz, der auf traditionellen Chinesen basiert. Da traditionelle chinesische Charaktere von Ernie entfernt werden, wird nicht empfohlen, Ernie (oder es in vereinfachte Chinesen zu vereinfachen und dann verarbeiten) für traditionelle chinesische Daten zu verwenden. Bewertungsindikatoren sind: EM / F1
| Modell | Entwicklungsset | Testset |
|---|---|---|
| Bert | 83.1 (82,7) / 89,9 (89,6) | 82,2 (81,6) / 89,2 (88,8) |
| Ernie | 73,2 (73,0) / 83,9 (83,8) | 71,9 (71,4) / 82,5 (82,3) |
| Bert-wwm | 84,3 (83,4) / 90,5 (90,2) | 82,8 (81,8) / 89,7 (89,0) |
| Bert-wwm-ot | 85,0 (84,5) / 91,2 (90,9) | 83,6 (83,0) / 90,4 (89,9) |
| Roberta-wwm-text | 86,6 (85,9) / 92,5 (92,2) | 85,6 (85,2) / 92.0 (91,7) |
| Roberta-wwm-text-large | 89,6 (89,1) / 94,8 (94,4) | 89,6 (88,9) / 94,5 (94,1) |
Der CJRC -Datensatz sind chinesische Daten für das Reading -Verständnis für das Justiz, das vom gemeinsamen Labor von Iflytek veröffentlicht wurde. Es ist zu beachten, dass die im Experiment verwendeten Daten nicht die vom Beamten veröffentlichten Daten sind und die Ergebnisse nur als Referenz dienen. Bewertungsindikatoren sind: EM / F1
| Modell | Entwicklungsset | Testset |
|---|---|---|
| Bert | 54,6 (54,0) / 75,4 (74,5) | 55,1 (54,1) / 75,2 (74,3) |
| Ernie | 54,3 (53,9) / 75,3 (74,6) | 55,0 (53,9) / 75,0 (73,9) |
| Bert-wwm | 54,7 (54,0) / 75,2 (74,8) | 55,1 (54,1) / 75,4 (74,4) |
| Bert-wwm-ot | 55,6 (54,8) / 76,0 (75,3) | 55,6 (54,9) / 75,8 (75,0) |
| Roberta-wwm-text | 58,7 (57,6) / 79,1 (78,3) | 59,0 (57,8) / 79,0 (78,0) |
| Roberta-wwm-text-large | 62.1 (61,1) / 82.4 (81,6) | 62,4 (61,4) / 82.2 (81,0) |
In der Aufgabe der natürlichen Sprache inferenzieren wir XNLI -Daten, wodurch der Text in drei Kategorien unterteilt werden muss: entailment , neutral und contradictory . Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklungsset | Testset |
|---|---|---|
| Bert | 77,8 (77,4) | 77,8 (77,5) |
| Ernie | 79,7 (79,4) | 78,6 (78,2) |
| Bert-wwm | 79,0 (78,4) | 78,2 (78,0) |
| Bert-wwm-ot | 79,4 (78,6) | 78,7 (78,3) |
| Roberta-wwm-text | 80.0 (79,2) | 78,8 (78,3) |
| Roberta-wwm-text-large | 82.1 (81,3) | 81,2 (80,6) |
In der Aufgabe der Sentiment -Analyse ist der Datensatz der binären Emotionsklassifizierung chnSenticorp. Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklungsset | Testset |
|---|---|---|
| Bert | 94.7 (94,3) | 95.0 (94,7) |
| Ernie | 95,4 (94,8) | 95,4 (95.3) |
| Bert-wwm | 95.1 (94,5) | 95.4 (95.0) |
| Bert-wwm-ot | 95,4 (94,6) | 95.3 (94.7) |
| Roberta-wwm-text | 95.0 (94,6) | 95,6 (94,8) |
| Roberta-wwm-text-large | 95,8 (94,9) | 95,8 (94,9) |
Die folgenden beiden Datensätze müssen ein Satzpaar klassifizieren, um festzustellen, ob die Semantik der beiden Sätze gleich sind (Binärklassifizierungsaufgabe).
LCQMC wurde vom Intelligent Computing Research Center der Harbin Institute of Technology Shenzhen Graduate School veröffentlicht. Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklungsset | Testset |
|---|---|---|
| Bert | 89,4 (88,4) | 86,9 (86,4) |
| Ernie | 89,8 (89,6) | 87,2 (87,0) |
| Bert-wwm | 89,4 (89,2) | 87,0 (86,8) |
| Bert-wwm-ot | 89,6 (89,2) | 87,1 (86,6) |
| Roberta-wwm-text | 89,0 (88,7) | 86,4 (86,1) |
| Roberta-wwm-text-large | 90,4 (90,0) | 87,0 (86,8) |
BQ Corpus wird vom Intelligent Computing Research Center des Harbin Institute of Technology Shenzhen Graduate School veröffentlicht und ist ein Datensatz für das Bankenbereich. Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklungsset | Testset |
|---|---|---|
| Bert | 86,0 (85,5) | 84,8 (84,6) |
| Ernie | 86,3 (85,5) | 85,0 (84,6) |
| Bert-wwm | 86,1 (85,6) | 85,2 (84,9) |
| Bert-wwm-ot | 86,4 (85,5) | 85,3 (84,8) |
| Roberta-wwm-text | 86,0 (85,4) | 85,0 (84,6) |
| Roberta-wwm-text-large | 86,3 (85,7) | 85,8 (84,9) |
Für Textklassifizierungsaufgaben auf Kapitelebene haben wir Thucnews ausgewählt, einen Nachrichtensendatensatz, der vom Labor für natürliche Sprachverarbeitung der Tsinghua University veröffentlicht wurde. Wir nehmen einen der Untergruppen ein und müssen die Nachrichten in eine von 10 Kategorien unterteilen. Der Bewertungsindikator ist: Genauigkeit
| Modell | Entwicklungsset | Testset |
|---|---|---|
| Bert | 97,7 (97,4) | 97,8 (97,6) |
| Ernie | 97,6 (97,3) | 97,5 (97,3) |
| Bert-wwm | 98,0 (97,6) | 97,8 (97,6) |
| Bert-wwm-ot | 97,7 (97,5) | 97,7 (97,5) |
| Roberta-wwm-text | 98,3 (97,9) | 97,7 (97,5) |
| Roberta-wwm-text-large | 98,3 (97,7) | 97,8 (97,6) |
Im Folgenden sind die experimentellen Ergebnisse bei mehreren NLP -Aufgaben aufgeführt, und in der Tabelle finden Sie nur der Vergleich der Testssatzergebnisse.
| Modell | CMRC 2018 | DRCD | Xnli | CSC | LCQMC | Bq | Durchschnitt | Parametermenge |
|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-text-large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85,8 | 87.335 | 325 m |
| Roberta-wwm-text | 72,6 / 89.4 | 85.6 / 92.0 | 78,8 | 95.6 | 86,4 | 85.0 | 85.675 | 102 m |
| RBTL3 | 63.3 / 83.4 | 77,2 / 85.6 | 74,0 | 94.2 | 85.1 | 83.6 | 80.800 | 61 m (59,8%) |
| RBT3 | 62.2 / 81.8 | 75,0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79,550 | 38 m (37,3%) |
Vergleich der relativen Effekte:
| Modell | CMRC 2018 | DRCD | Xnli | CSC | LCQMC | Bq | Durchschnitt | Klassifizierungsdurchschnitt |
|---|---|---|---|---|---|---|---|---|
| Roberta-wwm-text-large | 102,2% / 101,3% | 104,7% / 102,7% | 103,0% | 100,2% | 100,7% | 100,9% | 101,9% | 101,2% |
| Roberta-wwm-text | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| RBTL3 | 87,2% / 93,3% | 90,2% / 93,0% | 93,9% | 98,5% | 98,5% | 98,4% | 94,3% | 97,35% |
| RBT3 | 85,7% / 91,5% | 87,6% / 91,2% | 91,8% | 97,1% | 98,5% | 98,0% | 92,9% | 96,35% |
Willkommen im chinesischen kleinen vorgeborenen Modell minirbt mit besseren Ergebnissen: https://github.com/iflytek/minirbt
BERT oder andere Modelle handelt) und muss gemäß der Zielaufgabe angepasst werden.ERNIE unterscheidet sich stark von BERT / BERT-wwm . Passen Sie daher die Lernrate bei der Verwendung von ERNIE an (basierend auf den obigen experimentellen Ergebnissen ist die anfängliche Lernrate, die ERNIE benötigt, relativ hoch).BERT / BERT-wwm Wikipedia-Daten für das Training verwendet, eignen sie sich besser für die Modellierung formaler Texte. Während ERNIE zusätzliche Netzwerkdaten wie Baidu Tieba und Zhi verwendet, was bei der Modellierung informeller Texte (wie Weibo usw.) Vorteile hat.BERT und BERT-wwm haben bessere Ergebnisse.BERT oder BERT-wwm . Weil wir festgestellt haben, dass es in der Vokabularliste von ERNIE fast keine traditionellen Chinesen gibt. Um allen zum Herunterladen zu erleichtern, bringen Sie das von Google offiziell veröffentlichte englische Modell BERT-large (wwm) mit:
BERT-Large, Uncased (Whole Word Masking)
BERT-Large, Cased (Whole Word Masking) : 24 -schichtige, 1024 versteckte, 16-köpfige, 340m Parameter
F: Wie verwendet ich dieses Modell?
A: So verwenden Sie die von Google veröffentlichte chinesische Bert, wie Sie dies verwenden. Der Text muss keine Wortsegmentierung durchlaufen, und WWM beeinflusst nur den Vorbildungsprozess und wirkt sich nicht auf die Eingabe von nachgeschalteten Aufgaben aus.
F: Gibt es einen vorhandenen Code vor dem Training?
A: Leider kann ich keinen relevanten Code bereitstellen. Sie können sich für die Implementierung auf #10 und Nr. 13 beziehen.
F: Wo kann man einen bestimmten Datensatz herunterladen?
A: Bitte überprüfen Sie das data . README.md im Task -Verzeichnis gibt die Datenquelle an. Für urheberrechtlich geschützte Inhalte suchen Sie bitte selbst oder wenden Sie sich an den ursprünglichen Autor, um Daten zu erhalten.
F: Wird es Pläne geben, ein größeres Modell zu veröffentlichen? Zum Beispiel die Bert-Large-WWM-Version?
A: Wenn wir bessere Ergebnisse aus dem Experiment erzielen, werden wir in Betracht ziehen, eine größere Version zu veröffentlichen.
F: Sie lügen! Kannst du das Ergebnis nicht reproduzieren?
A: In der nachgeschalteten Aufgabe haben wir das einfachste Modell übernommen. Zum Beispiel verwenden wir bei Klassifizierungsaufgaben direkt run_classifier.py (von Google bereitgestellt). Wenn der Durchschnittswert nicht erreicht werden kann, bedeutet dies, dass ein Fehler im Experiment selbst vorhanden ist. Bitte überprüfen Sie es sorgfältig. Es gibt viele zufällige Faktoren für den höchsten Wert, und wir können nicht garantieren, dass wir den höchsten Wert erreichen können. Ein weiterer anerkannter Faktor: Die Reduzierung der Stapelgröße verringert den experimentellen Effekt erheblich. Weitere Informationen finden Sie in der relevanten Ausgabe des Bert- und XLNET -Verzeichnisses.
F: Ich werde bessere Ergebnisse erzielen als Sie!
A: Herzlichen Glückwunsch.
F: Wie lange dauert es, um zu trainieren und welche Ausrüstung hat es trainiert?
A: Die Schulung wurde in der Google TPU V3 -Version (128G HBM) abgeschlossen. Das Training Bert-WWM dauert ungefähr 1,5 Tage, während Bert-WWM-EXT mehrere Wochen dauert (weitere Daten werden verwendet, um mehr zu iterieren). Es ist zu beachten, dass wir während der Vorausbildung LAMB Optimizer (TensorFlow-Version Implementierung) verwenden. Dieser Optimierer hat eine gute Unterstützung für große Chargen. Bei Feinabstimmungsaufgaben verwenden wir den Standard AdamWeightDecayOptimizer von Bert.
F: Wer ist Ernie?
A: Das Ernie -Modell in diesem Projekt bezieht sich ausdrücklich auf die von Baidu vorgeschlagene Ernie und nicht auf die von der Tsinghua University für ACL 2019 veröffentlichte Ernie.
F: Die Wirkung von Bert-WWM ist bei allen Aufgaben nicht sehr gut
A: Der Zweck dieses Projekts besteht darin, Forschern diversifizierte vorgebliebene Modelle zu bieten und Bert, Ernie oder Bert-WWM frei auszuwählen. Wir liefern nur experimentelle Daten und müssen immer noch unser Bestes in unseren eigenen Aufgaben geben, um Schlussfolgerungen zu ziehen. Ein weiteres Modell, eine weitere Wahl.
F: Warum werden einige Datensätze nicht ausprobiert?
A: Um ehrlich zu sein, ich bin nicht in der Stimmung, mehr Daten zu finden. 2) Ich muss nicht; 3) Ich habe kein Geld;
F: Lassen Sie uns diese Modelle kurz bewerten
A: Jeder hat seinen eigenen Fokus und seine eigenen Stärken. Die Forschung und Entwicklung der chinesischen Verarbeitung natürlicher Sprache erfordert gemeinsame Anstrengungen aller Parteien.
F: Wie heißt das nächste vorhersehbare Modell, das Sie vorhersagen?
A: Vielleicht heißt es Zoe. Zoe: Null-Shot-Einbettung aus dem Sprachmodell
F: Weitere Details zum RoBERTa-wwm-ext Modell?
A: Wir integrieren die Vorteile von Roberta und Bert-WWM, um eine natürliche Kombination aus beiden zu erstellen. Der Unterschied zwischen den Modellen in diesem Verzeichnis ist wie folgt:
1) Verwenden Sie die WWM-Strategie, um die Phase vor dem Training zu maskieren (aber keine dynamische Maskierung)
2) Verlust der nächsten Satzvorhersage (NSP) einfach abbrechen
3) Verwenden Sie nicht mehr den Trainingsmodus von max_len = 128 und dann max_len = 512 direkt trainieren Sie Max_len = 512
4) Erweitern Sie die Schulungsschritte angemessen
Es sollte beachtet werden, dass dieses Modell nicht das ursprüngliche Roberta-Modell ist, sondern nur ein Bert-Modell, das in einer ähnlichen Roberta-Trainingsmethode trainiert wurde, nämlich Roberta-ähnliches Bert. Wenn Sie daher nachgeschaltete Aufgaben und Konvertierungsmodelle verwenden, verarbeiten Sie sie daher nicht in Bert und nicht in Roberta.
Wenn die Ressourcen oder Technologien in diesem Projekt für Ihre Forschungsarbeiten hilfreich sind, lesen Sie bitte das folgende Papier im Papier.
@journal{cui-etal-2021-pretrain,
title={Pre-Training with Whole Word Masking for Chinese BERT},
author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
journal={IEEE Transactions on Audio, Speech and Language Processing},
year={2021},
url={https://ieeexplore.ieee.org/document/9599397},
doi={10.1109/TASLP.2021.3124365},
}
@inproceedings{cui-etal-2020-revisiting,
title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
author = "Cui, Yiming and
Che, Wanxiang and
Liu, Ting and
Qin, Bing and
Wang, Shijin and
Hu, Guoping",
booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
month = nov,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
pages = "657--668",
}
Der Erstautor wird teilweise vom TPU Research Cloud -Programm von Google finanziert.
Dieses Projekt ist nicht das von Google offiziell veröffentlichte chinesische Bert-WWM-Modell. Gleichzeitig ist dieses Projekt kein offizielles Produkt des Harbin Institute of Technology oder Iflytek. Die im technischen Bericht vorgestellten experimentellen Ergebnisse zeigen nur, dass die Leistung unter einem bestimmten Datensatz und einer Hyperparameter -Kombination nicht die Art jedes Modells darstellt. Die experimentellen Ergebnisse können sich aufgrund von Zufallszahlensamen und Computergeräten ändern. Der Inhalt in diesem Projekt dient nur für technische Forschungsreferenz und wird nicht als abschließende Grundlage verwendet. Benutzer können das Modell jederzeit im Rahmen der Lizenz verwenden, aber wir sind nicht für direkte oder indirekte Verluste verantwortlich, die durch die Verwendung des Inhalts des Projekts verursacht werden.
Willkommen, um dem offiziellen WeChat Offiziellen Bericht des gemeinsamen Labors Iflytek zu folgen, um mehr über die neuesten technischen Trends zu erfahren.

Wenn Sie Fragen haben, senden Sie diese bitte in Github -Problem.