Chinese BERT wwm Download - Chinese BERT wwm Quellcode Download

Chinese BERT wwm

Anderer Quellcode

1.0.0

Herunterladen

Chinese-Llama-Alpaca-2 V1.0-Version wurde offiziell veröffentlicht!

Chinesische Beschreibung | Englisch

Im Bereich der natürlichen Sprachverarbeitung sind vorgeborene Sprachmodelle (vorgeborene Sprachmodelle) zu einer sehr wichtigen Grundtechnologie geworden. Um die Forschung und Entwicklung der chinesischen Informationsverarbeitung weiter zu fördern, haben wir die chinesische vorgebrachte Modell Bert-WWM auf der Grundlage der gesamten Wortmaskierungstechnologie sowie den Modellen veröffentlicht, die eng mit dieser Technologie verbunden sind: Bert-Wwm-ted, Roberta-wwm-ot, Roberta-wwm-ext-large, RBT3, RBTL3 usw. usw.

Vorausbildung mit ganzem Wortmaskieren für chinesische Bert
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang
Veröffentlicht in IEEE/ACM -Transaktionen zu Audio-, Sprach- und Sprachverarbeitung (TASLP)

Dieses Projekt basiert auf Googles offiziellem Bert: https://github.com/google-research/bert

Siehe weitere Ressourcen,

Nachricht

2023/3/28 Open Source Chinese Lama & Alpaca Big Model, das schnell auf dem PC eingesetzt und erfahren werden kann, https://github.com/ymcui/chinese-lama-alpaca

2023/3/9 Wir schlagen ein multimodales vorgebildetes Modell-VLE in Grafik und Text vor: https://github.com/iflytek/vle

2022/11/15 Wir schlagen das chinesische kleine vorgebildete Modell minirbt vor. Anzeigen: https://github.com/iflytek/minirbt

2022/10/29 Wir schlagen eine vorgebildete Modelllert vor, die sprachliche Informationen integriert. Ansicht: https://github.com/ymcui/lert

2022/3/30 Wir Open Source Ein neues vorgebildetes Modell Pert. Ansicht: https://github.com/ymcui/pert

Historische Nachrichten

2021/12/17 IFlytek Joint Laboratory startet das Modell Schneidetoolkit Textpruner. Anzeigen: https://github.com/airaria/textpruner

2021/10/24 IFlytek Joint Laboratory veröffentlichte ein vorgebildetes Modell CINO für ethnische Minderheitensprachen. Ansicht: https://github.com/ymcui/chinese-minority-plm

2021/7/21 "Natürliche Sprachverarbeitung: Methoden, die auf Voraussetzungsmodellen basieren", wurden von vielen Wissenschaftlern des Harbin Institute of Technology SCIR veröffentlicht, und jeder ist eingeladen, es zu kaufen.

2021/1/27 Alle Modelle haben TensorFlow 2 unterstützt. Bitte rufen Sie ihn an oder laden Sie ihn über die Transformers Library herunter. https://huggingface.co/hfl

2020/9/15 Unser Papier "Revisiting vorgebildete Modelle für die chinesische Verarbeitung natürlicher Sprache" wurde als langer Artikel mit den Ergebnissen von EMNLP eingestellt.

2020/8/27 IFL Joint Laboratory hat die Liste in der Bewertung der allgemeinen natürlichen Sprachverständnis der Kleber an der Liste der Leim.

2020/3/23 Das in diesem Verzeichnis veröffentlichte Modell wurde mit Paddlepaddlehub angeschlossen, um das schnelle Laden anzuzeigen

2020/3/11 Um die Anforderungen besser zu verstehen, sind Sie eingeladen, den Fragebogen auszufüllen, um Ihnen bessere Ressourcen bereitzustellen.

2020/2/26 IFLYTEK Joint Laboratory Freisetzende Wissensdestillationsinstrument für Wissensdestillation

2020/1/20 Ich wünsche Ihnen allen viel Glück im Jahr der Ratte. Dieses Mal wurden RBT3 und RBTL3 (3-Layer Roberta-Wwm-Outd-Base/Large) freigesetzt, um das kleine Parametermengenmodell anzuzeigen.

2019/12/19 Das in diesem Verzeichnis veröffentlichte Modell wurde mit Huggingface-Transformern verbunden, um das schnelle Laden anzuzeigen

2019/10/14 Veröffentlichen Sie das Roberta-Wwm-ext-Large-Modell, das chinesische Modell-Download anzeigen

2019/9/10 Veröffentlichung des Roberta-Wwm-ext-Modells und sehen Sie sich den chinesischen Modell-Download an

BERT-wwm-ext

2019/6/20 Erstversion kann das Modell über Google heruntergeladen werden und die inländische Cloud -Festplatte wurde ebenfalls hochgeladen. Überprüfen Sie den chinesischen Modell -Download

Inhaltsanleitung

Kapitel	beschreiben
Einführung	Einführung in die Grundprinzipien von Bert-wwm
Chinesisches Modell herunterladen	Bietet die Download-Adresse von Bert-wwm
Schnelles Laden	So verwenden Sie Transformatoren und Paddlehub schnell laden Modelle
Modellvergleich	Bietet einen Vergleich der Parameter des Modells in diesem Verzeichnis
Chinesischer Basissystemeffekt	Listen Sie einige Auswirkungen chinesischer Basissysteme auf
Kleines Parametermengenmodell	Listen Sie die Auswirkungen des kleinen Parametermengenmodells (3-Schicht-Transformator) auf.
Empfehlungen für den Gebrauch	Es werden mehrere Vorschläge für die Verwendung chinesischer vorgebildeter Modelle bereitgestellt
Laden Sie das englische Modell herunter	Googles offizielle englische Bert-Wwm-Download-Adresse von Google
FAQ	FAQs und Antworten
Zitat	Technische Berichte in diesem Verzeichnis

Einführung

Das WWM (WWM-Word-Maskieren) , das vorübergehend als全词Mask oder整词Mask übersetzt wurde, ist eine verbesserte Version von Bert, die am 31. Mai 2019 von Google veröffentlicht wurde und die die Strategie zur Erzeugung der Trainingsstichproben in der ursprünglichen Vorinstallationsphase hauptsächlich verändert. Einfach ausgedrückt wird die ursprüngliche wortstückbasierte Wortsegmentierungsmethode ein vollständiges Wort in mehrere Unterwörter unterteilt. Beim Generieren von Trainingsproben werden diese getrennten Unterwörter zufällig maskiert. In全词Mask , wenn das Word -Stück Subword eines vollständigen Wortes maskiert ist, werden andere Teile desselben Wortes maskiert, dh全词Mask .

Es ist zu beachten, dass sich die Maske hier auf die verallgemeinerte Maske bezieht (ersetzt durch [Maske]; den ursprünglichen Vokabular beibehalten; zufällig durch ein anderes Wort ersetzt) und nicht auf den Fall beschränkt ist, in dem das Wort durch das [MASK] -Tag ersetzt wird. Weitere detailliertere Beschreibungen und Beispiele finden Sie unter: #4

In ähnlicher Weise wird die Chinesen, da Google offiziell BERT-base, Chinese veröffentlicht hat, durch Charaktere als Granularität geteilt und berücksichtigt das chinesische Partizip (CWS) in traditioneller NLP nicht. Wir haben die Methode der vollständigen Wortmaske auf Chinesisch angewendet, chinesische Wikipedia (einschließlich vereinfachter und traditioneller Chinesen) für das Training verwendet und Harbin Institute of Technology LTP als Word -Segmentierungsinstrument verwendet, dh alle chinesischen Charaktere, aus denen das gleiche Wort besteht, werden zugeordnet.

Der folgende Text zeigt eine Beispielerzeugung der全词Mask . HINWEIS: Aus Gründen des einfachen Verständnisses wird in den folgenden Beispielen nur der Fall des Austauschs des [Masken] -Tages berücksichtigt.

veranschaulichen	Probe
Originaltext	Verwenden Sie Sprachmodelle, um die Wahrscheinlichkeit des nächsten Wortes vorherzusagen.
Wort Partiziptext	Verwenden Sie Sprachmodelle, um die Wahrscheinlichkeit des nächsten Wortes vorherzusagen.
Originalmaskeneingabe	Verwenden Sie den Typ der Sprache [Maske], um die Pro [Maske] des nächsten Word Pro [Mask] ## Lity zu testen.
Vollständige Wortmaskeneingabe	Verwenden Sie die Sprache [Maske] [Maske] zu [Maske] [Maske] Das nächste Wort [Maske] [Maske].

Chinesisches Modell herunterladen

Dieses Verzeichnis enthält hauptsächlich Basismodelle, sodass wir die base in der Abkürzung des Modells nicht beschriften. Für Modelle anderer Größen sind die entsprechenden Tags (z. B. groß) markiert.

BERT-large模型: 24 -schichtige, 1024 versteckte, 16-köpfige, 330-m-Parameter
BERT-base模型: 12-layer, 768 versteckte, 12-Heads, 110 m Parameter

Hinweis: Die Open Source -Version enthält nicht das Gewicht von MLM -Aufgaben. Wenn Sie MLM-Aufgaben ausführen müssen, verwenden Sie bitte zusätzliche Daten für die sekundäre Vorausbildung (wie andere nachgeschaltete Aufgaben).

Modellabkürzung	Materialien	Google Download	Baidu NetDisk -Download
`RBT6, Chinese`	Ext -Daten ^[1]	- -	TensorFlow (Passwort hniy)
`RBT4, Chinese`	Ext -Daten ^[1]	- -	TensorFlow (Passwort SJPT)
`RBTL3, Chinese`	Ext -Daten ^[1]	Tensorflow Pytorch	TensorFlow (Passwort S6CU)
`RBT3, Chinese`	Ext -Daten ^[1]	Tensorflow Pytorch	TensorFlow (Passwort 5A57)
`RoBERTa-wwm-ext-large, Chinese`	Ext -Daten ^[1]	Tensorflow Pytorch	TensorFlow (Passwort DQQE)
`RoBERTa-wwm-ext, Chinese`	Ext -Daten ^[1]	Tensorflow Pytorch	TensorFlow (Passwort vybq)
`BERT-wwm-ext, Chinese`	Ext -Daten ^[1]	Tensorflow Pytorch	TensorFlow (Passwort WGNT)
`BERT-wwm, Chinese`	Chinesisches Wiki	Tensorflow Pytorch	TensorFlow (Passwort QFH8)
`BERT-base, Chinese` ^Google	Chinesisches Wiki	Google Cloud	- -
`BERT-base, Multilingual Cased` ^Google	Mehrsprachiger Wiki	Google Cloud	- -
`BERT-base, Multilingual Uncased` ^Google	Mehrsprachiger Wiki	Google Cloud	- -

[1] Ext -Daten umfassen: chinesische Wikipedia, andere Enzyklopädien, Nachrichten, Q & A und andere Daten, wobei eine Gesamtzahl von Wörtern 5,4b erreicht.

Pytorch -Version

Wenn Sie die Pytorch -Version benötigen,

1) Bitte konvertieren Sie es selbst durch das von Transformers bereitgestellte Konvertierungsskript.

2) oder laden Sie Pytorch direkt über die offizielle Website von Huggingface herunter: https://huggingface.co/hfl

Download -Methode: Klicken Sie auf ein beliebiges Modell, das Sie herunterladen möchten. → Wählen Sie die Registerkarte "Dateien und Versionen" aus → Laden Sie die entsprechende Modelldatei herunter.

Anweisungen zur Verwendung

Es wird empfohlen, Baidu NetDisk -Download -Punkte auf dem chinesischen Festland zu verwenden, und in Übersee wird empfohlen, Google -Download -Punkte zu verwenden. Die Größe der Basismodelldatei beträgt ca. 400 m . Dekomprimieren Sie die ZIP-Datei, um die Zip-Datei zu erhalten, um die Tensorflow-Version von BERT-wwm, Chinese zu erhalten, um zu erhalten:

 chinese_wwm_L-12_H-768_A-12.zip
    |- bert_model.ckpt      # 模型权重
    |- bert_model.meta      # 模型meta信息
    |- bert_model.index     # 模型index信息
    |- bert_config.json     # 模型参数
    |- vocab.txt            # 词表

Unter ihnen sind bert_config.json und vocab.txt genau die gleichen wie die ursprüngliche BERT-base, Chinese von Google. Die Pytorch -Version enthält pytorch_model.bin , bert_config.json und vocab.txt -Dateien.

Schnelles Laden

Verwenden von Huggingface-Transformern

Wenn Sie sich auf die (Transformers -Bibliothek) verlassen, können die oben genannten Modelle leicht aufgerufen werden.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Hinweis: Alle Modelle in diesem Verzeichnis werden mit BertTokenizer und Bertmodel geladen. Verwenden Sie Robertatokenizer/Robertamodel nicht!

Die entsprechende Liste von MODEL_NAME lautet wie folgt:

Modellname	Model_name
Roberta-wwm-text-large	HFL/Chinese-Roberta-wwm-text-large
Roberta-wwm-text	HFL/Chinese-Roberta-Wwm-Outd
Bert-wwm-ot	HFL/Chinese-Bert-Wwm-EXT
Bert-wwm	HFL/Chinese-Bert-Wwm
RBT3	HFL/RBT3
RBTL3	HFL/RBTL3

Mit Paddlehub

Wenn Sie sich auf Paddlehub verlassen, können Sie das Modell mit nur einer Codezeile herunterladen und installieren, und mehr als zehn Codezeilen können Aufgaben wie Textklassifizierung, Annotation von Sequenz, Leseverständnis usw. erledigen.

 import paddlehub as hub
module = hub.Module(name=MODULE_NAME)

Die entsprechende Liste von MODULE_NAME lautet wie folgt:

Modellname	Module_Name
Roberta-wwm-text-large	Chinese-Roberta-wwm-text-large
Roberta-wwm-text	Chinese-Roberta-Wwm-Outd
Bert-wwm-ot	Chinese-Bert-Wwm-EXT
Bert-wwm	Chinese-Bert-Wwm
RBT3	RBT3
RBTL3	RBTL3

Modellvergleich

Das Folgende ist eine Zusammenfassung einiger Modelldetails, über die sich jeder mehr Sorgen macht.

- -	Bert ^Google	Bert-wwm	Bert-wwm-ot	Roberta-wwm-text	Roberta-wwm-text-large
Maskierung	Wortstück	WWM ^[1]	Wwm	Wwm	Wwm
Typ	Base	Base	Base	Base	Groß
Datenquelle	Wiki	Wiki	Wiki+ext ^[2]	Wiki+ext	Wiki+ext
Trainingstoken #	0,4b	0,4b	5.4b	5.4b	5.4b
Gerät	TPU POD V2	TPU V3	TPU V3	TPU V3	TPU POD V3-32 ^[3]
Trainingsschritte	?	100K ^max128 +100k ^max512	1m ^Max128 +400k ^max512	1m ^Max512	2m ^Max512
Chargengröße	?	2.560 / 384	2.560 / 384	384	512
Optimierer	Adamw	LAMM	LAMM	Adamw	Adamw
Vokabular	21.128	~ Bert ^[4]	~ Bert	~ Bert	~ Bert
Init Checkpoint	Zufälliger init	~ Bert	~ Bert	~ Bert	Zufälliger init

[1] WWM = Ganzes Wortmaskieren
[2] ext = erweiterte Daten
[3] TPU POD V3-32 (512G HBM) entspricht 4 TPU V3 (128 g HBM).
[4] ~BERT bedeutet, die Attribute des ursprünglichen chinesischen Berts von Google zu erben

Chinesischer Basissystemeffekt

Um die Baseline-Effekte zu vergleichen, haben wir sie auf den folgenden chinesischen Datensätzen getestet, einschließlich Aufgaben句子级und篇章级. Für BERT-wwm-ext , RoBERTa-wwm-ext und RoBERTa-wwm-ext-large haben wir die optimale Lernrate nicht weiter angepasst , sondern die optimale Lernrate von BERT-wwm direkt verwendet.

Beste Lernrate:

Modell	Bert	Ernie	Bert-wwm*
CMRC 2018	3e-5	8E-5	3e-5
DRCD	3e-5	8E-5	3e-5
CJRC	4e-5	8E-5	4e-5
Xnli	3e-5	5e-5	3e-5
CHNSENTICORP	2E-5	5e-5	2E-5
LCQMC	2E-5	3e-5	2E-5
BQ Corpus	3e-5	5e-5	3e-5
Thucnews	2E-5	5e-5	2E-5

*Repräsentiert alle Modelle der WWM-Serie (Bert-WWM, Bert-Wwm-Outd, Roberta-Wwm-EXT, Roberta-wwm-text-large)

Im Folgenden sind nur einige Ergebnisse aufgeführt. In unserem technischen Bericht finden Sie die vollständigen Ergebnisse.

CMRC 2018 : Leseverständnis der Kapitelfragmentextraktion (vereinfachtes Chinesisch)
DRCD : Leseverständnis der Kapitelfragmentextraktion (traditionelles Chinesisch)
CJRC : Rechtsverständnis (vereinfachtes Chinesisch)
Xnli : natürliche Sprachinferenz
CHNSENTICORP : Senti -Analyse
LCQMC : Satzpaar Matching
BQ Corpus : Satzpaar Matching
Thucnews : Textklassifizierung auf Kapitelebene

Hinweis: Um die Zuverlässigkeit der Ergebnisse zu gewährleisten, laufen wir für dasselbe Modell 10 -mal (unterschiedliche Zufallssamen), um die maximalen und die Durchschnittswerte der Modellleistung (die Durchschnittswerte in Klammern) zu melden. Wenn nichts Unerwartetes passiert, sollte das Ergebnis Ihres Betriebs in diesem Bereich liegen.

Im Bewertungsindikator wird der Durchschnittswert in Klammern dargestellt und der Maximalwert außerhalb der Klammern dargestellt.

Vereinfachtes chinesisches Leseverständnis: CMRC 2018

Der CMRC 2018 -Datensatz sind die vom Joint Laboratory of Harbin Institute of Technology veröffentlichten chinesischen Daten des Maschinenlesung. Laut einer bestimmten Frage muss das System Fragmente aus dem Kapitel als Antwort in der gleichen Form wie Kader extrahieren. Bewertungsindikatoren sind: EM / F1

Modell	Entwicklungsset	Testset	Herausforderungssatz
Bert	65,5 (64,4) / 84,5 (84,0)	70,0 (68,7) / 87,0 (86,3)	18,6 (17.0) / 43,3 (41,3)
Ernie	65,4 (64,3) / 84,7 (84,2)	69,4 (68,2) / 86,6 (86,1)	19,6 (17.0) / 44,3 (42,8)
Bert-wwm	66,3 (65,0) / 85,6 (84,7)	70,5 (69,1) / 87,4 (86,7)	21.0 (19.3) / 47.0 (43,9)
Bert-wwm-ot	67,1 (65,6) / 85,7 (85,0)	71,4 (70,0) / 87,7 (87,0)	24.0 (20.0) / 47,3 (44,6)
Roberta-wwm-text	67,4 (66,5) / 87,2 (86,5)	72,6 (71,4) / 89,4 (88,8)	26,2 (24,6) / 51,0 (49,1)
Roberta-wwm-text-large	68,5 (67,6) / 88,4 (87,9)	74,2 (72,4) / 90,6 (90,0)	31,5 (30,1) / 60,1 (57,5)

Traditionelles chinesisches Leseverständnis: DRCD

Der DRCD -Datensatz wurde vom Delta Research Institute in Taiwan, China, veröffentlicht. Seine Form ist die gleiche wie der Kader und ein extrahierter Leseverständnis -Datensatz, der auf traditionellen Chinesen basiert. Da traditionelle chinesische Charaktere von Ernie entfernt werden, wird nicht empfohlen, Ernie (oder es in vereinfachte Chinesen zu vereinfachen und dann verarbeiten) für traditionelle chinesische Daten zu verwenden. Bewertungsindikatoren sind: EM / F1

Modell	Entwicklungsset	Testset
Bert	83.1 (82,7) / 89,9 (89,6)	82,2 (81,6) / 89,2 (88,8)
Ernie	73,2 (73,0) / 83,9 (83,8)	71,9 (71,4) / 82,5 (82,3)
Bert-wwm	84,3 (83,4) / 90,5 (90,2)	82,8 (81,8) / 89,7 (89,0)
Bert-wwm-ot	85,0 (84,5) / 91,2 (90,9)	83,6 (83,0) / 90,4 (89,9)
Roberta-wwm-text	86,6 (85,9) / 92,5 (92,2)	85,6 (85,2) / 92.0 (91,7)
Roberta-wwm-text-large	89,6 (89,1) / 94,8 (94,4)	89,6 (88,9) / 94,5 (94,1)

Gerichtliches Leseverständnis: CJRC

Der CJRC -Datensatz sind chinesische Daten für das Reading -Verständnis für das Justiz, das vom gemeinsamen Labor von Iflytek veröffentlicht wurde. Es ist zu beachten, dass die im Experiment verwendeten Daten nicht die vom Beamten veröffentlichten Daten sind und die Ergebnisse nur als Referenz dienen. Bewertungsindikatoren sind: EM / F1

Modell	Entwicklungsset	Testset
Bert	54,6 (54,0) / 75,4 (74,5)	55,1 (54,1) / 75,2 (74,3)
Ernie	54,3 (53,9) / 75,3 (74,6)	55,0 (53,9) / 75,0 (73,9)
Bert-wwm	54,7 (54,0) / 75,2 (74,8)	55,1 (54,1) / 75,4 (74,4)
Bert-wwm-ot	55,6 (54,8) / 76,0 (75,3)	55,6 (54,9) / 75,8 (75,0)
Roberta-wwm-text	58,7 (57,6) / 79,1 (78,3)	59,0 (57,8) / 79,0 (78,0)
Roberta-wwm-text-large	62.1 (61,1) / 82.4 (81,6)	62,4 (61,4) / 82.2 (81,0)

Inferenz der natürlichen Sprache: xnli

In der Aufgabe der natürlichen Sprache inferenzieren wir XNLI -Daten, wodurch der Text in drei Kategorien unterteilt werden muss: entailment , neutral und contradictory . Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklungsset	Testset
Bert	77,8 (77,4)	77,8 (77,5)
Ernie	79,7 (79,4)	78,6 (78,2)
Bert-wwm	79,0 (78,4)	78,2 (78,0)
Bert-wwm-ot	79,4 (78,6)	78,7 (78,3)
Roberta-wwm-text	80.0 (79,2)	78,8 (78,3)
Roberta-wwm-text-large	82.1 (81,3)	81,2 (80,6)

Senticorp

In der Aufgabe der Sentiment -Analyse ist der Datensatz der binären Emotionsklassifizierung chnSenticorp. Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklungsset	Testset
Bert	94.7 (94,3)	95.0 (94,7)
Ernie	95,4 (94,8)	95,4 (95.3)
Bert-wwm	95.1 (94,5)	95.4 (95.0)
Bert-wwm-ot	95,4 (94,6)	95.3 (94.7)
Roberta-wwm-text	95.0 (94,6)	95,6 (94,8)
Roberta-wwm-text-large	95,8 (94,9)	95,8 (94,9)

Satzpaarklassifizierung: LCQMC, BQ Corpus

Die folgenden beiden Datensätze müssen ein Satzpaar klassifizieren, um festzustellen, ob die Semantik der beiden Sätze gleich sind (Binärklassifizierungsaufgabe).

LCQMC

LCQMC wurde vom Intelligent Computing Research Center der Harbin Institute of Technology Shenzhen Graduate School veröffentlicht. Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklungsset	Testset
Bert	89,4 (88,4)	86,9 (86,4)
Ernie	89,8 (89,6)	87,2 (87,0)
Bert-wwm	89,4 (89,2)	87,0 (86,8)
Bert-wwm-ot	89,6 (89,2)	87,1 (86,6)
Roberta-wwm-text	89,0 (88,7)	86,4 (86,1)
Roberta-wwm-text-large	90,4 (90,0)	87,0 (86,8)

BQ Corpus

BQ Corpus wird vom Intelligent Computing Research Center des Harbin Institute of Technology Shenzhen Graduate School veröffentlicht und ist ein Datensatz für das Bankenbereich. Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklungsset	Testset
Bert	86,0 (85,5)	84,8 (84,6)
Ernie	86,3 (85,5)	85,0 (84,6)
Bert-wwm	86,1 (85,6)	85,2 (84,9)
Bert-wwm-ot	86,4 (85,5)	85,3 (84,8)
Roberta-wwm-text	86,0 (85,4)	85,0 (84,6)
Roberta-wwm-text-large	86,3 (85,7)	85,8 (84,9)

Textklassifizierung auf Kapitelebene: Thucnews

Für Textklassifizierungsaufgaben auf Kapitelebene haben wir Thucnews ausgewählt, einen Nachrichtensendatensatz, der vom Labor für natürliche Sprachverarbeitung der Tsinghua University veröffentlicht wurde. Wir nehmen einen der Untergruppen ein und müssen die Nachrichten in eine von 10 Kategorien unterteilen. Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklungsset	Testset
Bert	97,7 (97,4)	97,8 (97,6)
Ernie	97,6 (97,3)	97,5 (97,3)
Bert-wwm	98,0 (97,6)	97,8 (97,6)
Bert-wwm-ot	97,7 (97,5)	97,7 (97,5)
Roberta-wwm-text	98,3 (97,9)	97,7 (97,5)
Roberta-wwm-text-large	98,3 (97,7)	97,8 (97,6)

Kleines Parametermengenmodell

Im Folgenden sind die experimentellen Ergebnisse bei mehreren NLP -Aufgaben aufgeführt, und in der Tabelle finden Sie nur der Vergleich der Testssatzergebnisse.

Modell	CMRC 2018	DRCD	Xnli	CSC	LCQMC	Bq	Durchschnitt	Parametermenge
Roberta-wwm-text-large	74.2 / 90.6	89.6 / 94.5	81.2	95.8	87.0	85,8	87.335	325 m
Roberta-wwm-text	72,6 / 89.4	85.6 / 92.0	78,8	95.6	86,4	85.0	85.675	102 m
RBTL3	63.3 / 83.4	77,2 / 85.6	74,0	94.2	85.1	83.6	80.800	61 m (59,8%)
RBT3	62.2 / 81.8	75,0 / 83.9	72.3	92.8	85.1	83.3	79,550	38 m (37,3%)

Vergleich der relativen Effekte:

Modell	CMRC 2018	DRCD	Xnli	CSC	LCQMC	Bq	Durchschnitt	Klassifizierungsdurchschnitt
Roberta-wwm-text-large	102,2% / 101,3%	104,7% / 102,7%	103,0%	100,2%	100,7%	100,9%	101,9%	101,2%
Roberta-wwm-text	100% / 100%	100% / 100%	100%	100%	100%	100%	100%	100%
RBTL3	87,2% / 93,3%	90,2% / 93,0%	93,9%	98,5%	98,5%	98,4%	94,3%	97,35%
RBT3	85,7% / 91,5%	87,6% / 91,2%	91,8%	97,1%	98,5%	98,0%	92,9%	96,35%

Die Parametermenge wird basierend auf der XNLI -Klassifizierungsaufgabe berechnet
Der Prozentsatz der Parameter in Klammern basiert auf dem ursprünglichen Basismodell (d. H. Roberta-wwm-ot)
RBT3: Initialisiert von Roberta-Wwm-EXTS Layer 3 und trainierte weiter für 1 m große Schritte.
RBTL3: Initialisiert von Roberta-wwm-text-large Layer 3 und trainierte weiterhin 1 m Schritte.
Der Name von RBT setzt sich aus drei Silbeninitialen von Roberta zusammen, und L repräsentiert das große Modell
Die direkte Verwendung der ersten drei Schichten von Roberta-wwm-text-groß für die Initialisierung und das Training nachgeschaltete Aufgaben verringern den Effekt erheblich. Zum Beispiel kann der Testsatz bei CMRC 2018 nur 42,9/65,3 erreichen, während RBTL3 63,3/83.4 erreichen kann

Willkommen im chinesischen kleinen vorgeborenen Modell minirbt mit besseren Ergebnissen: https://github.com/iflytek/minirbt

Empfehlungen für den Gebrauch

Die anfängliche Lernrate ist ein sehr wichtiger Parameter (unabhängig davon, ob es sich um BERT oder andere Modelle handelt) und muss gemäß der Zielaufgabe angepasst werden.
Die optimale Lernrate von ERNIE unterscheidet sich stark von BERT / BERT-wwm . Passen Sie daher die Lernrate bei der Verwendung von ERNIE an (basierend auf den obigen experimentellen Ergebnissen ist die anfängliche Lernrate, die ERNIE benötigt, relativ hoch).
Da BERT / BERT-wwm Wikipedia-Daten für das Training verwendet, eignen sie sich besser für die Modellierung formaler Texte. Während ERNIE zusätzliche Netzwerkdaten wie Baidu Tieba und Zhi verwendet, was bei der Modellierung informeller Texte (wie Weibo usw.) Vorteile hat.
Bei langen Textmodellierungsaufgaben wie Leseverständnis, Dokumentklassifizierung, BERT und BERT-wwm haben bessere Ergebnisse.
Wenn sich die Daten der Zielaufgabe von den Feldern des vorgeborenen Modells unterscheiden, führen Sie bitte weiter vor dem Training in Ihrem eigenen Datensatz vor.
Wenn Sie herkömmliche chinesische Daten verarbeiten möchten, verwenden Sie BERT oder BERT-wwm . Weil wir festgestellt haben, dass es in der Vokabularliste von ERNIE fast keine traditionellen Chinesen gibt.

Laden Sie das englische Modell herunter

Um allen zum Herunterladen zu erleichtern, bringen Sie das von Google offiziell veröffentlichte englische Modell BERT-large (wwm) mit:

BERT-Large, Uncased (Whole Word Masking)
BERT-Large, Cased (Whole Word Masking) : 24 -schichtige, 1024 versteckte, 16-köpfige, 340m Parameter

FAQ

F: Wie verwendet ich dieses Modell?
A: So verwenden Sie die von Google veröffentlichte chinesische Bert, wie Sie dies verwenden. Der Text muss keine Wortsegmentierung durchlaufen, und WWM beeinflusst nur den Vorbildungsprozess und wirkt sich nicht auf die Eingabe von nachgeschalteten Aufgaben aus.

F: Gibt es einen vorhandenen Code vor dem Training?
A: Leider kann ich keinen relevanten Code bereitstellen. Sie können sich für die Implementierung auf #10 und Nr. 13 beziehen.

F: Wo kann man einen bestimmten Datensatz herunterladen?
A: Bitte überprüfen Sie das data . README.md im Task -Verzeichnis gibt die Datenquelle an. Für urheberrechtlich geschützte Inhalte suchen Sie bitte selbst oder wenden Sie sich an den ursprünglichen Autor, um Daten zu erhalten.

F: Wird es Pläne geben, ein größeres Modell zu veröffentlichen? Zum Beispiel die Bert-Large-WWM-Version?
A: Wenn wir bessere Ergebnisse aus dem Experiment erzielen, werden wir in Betracht ziehen, eine größere Version zu veröffentlichen.

F: Sie lügen! Kannst du das Ergebnis nicht reproduzieren?
A: In der nachgeschalteten Aufgabe haben wir das einfachste Modell übernommen. Zum Beispiel verwenden wir bei Klassifizierungsaufgaben direkt run_classifier.py (von Google bereitgestellt). Wenn der Durchschnittswert nicht erreicht werden kann, bedeutet dies, dass ein Fehler im Experiment selbst vorhanden ist. Bitte überprüfen Sie es sorgfältig. Es gibt viele zufällige Faktoren für den höchsten Wert, und wir können nicht garantieren, dass wir den höchsten Wert erreichen können. Ein weiterer anerkannter Faktor: Die Reduzierung der Stapelgröße verringert den experimentellen Effekt erheblich. Weitere Informationen finden Sie in der relevanten Ausgabe des Bert- und XLNET -Verzeichnisses.

F: Ich werde bessere Ergebnisse erzielen als Sie!
A: Herzlichen Glückwunsch.

F: Wie lange dauert es, um zu trainieren und welche Ausrüstung hat es trainiert?
A: Die Schulung wurde in der Google TPU V3 -Version (128G HBM) abgeschlossen. Das Training Bert-WWM dauert ungefähr 1,5 Tage, während Bert-WWM-EXT mehrere Wochen dauert (weitere Daten werden verwendet, um mehr zu iterieren). Es ist zu beachten, dass wir während der Vorausbildung LAMB Optimizer (TensorFlow-Version Implementierung) verwenden. Dieser Optimierer hat eine gute Unterstützung für große Chargen. Bei Feinabstimmungsaufgaben verwenden wir den Standard AdamWeightDecayOptimizer von Bert.

F: Wer ist Ernie?
A: Das Ernie -Modell in diesem Projekt bezieht sich ausdrücklich auf die von Baidu vorgeschlagene Ernie und nicht auf die von der Tsinghua University für ACL 2019 veröffentlichte Ernie.

F: Die Wirkung von Bert-WWM ist bei allen Aufgaben nicht sehr gut
A: Der Zweck dieses Projekts besteht darin, Forschern diversifizierte vorgebliebene Modelle zu bieten und Bert, Ernie oder Bert-WWM frei auszuwählen. Wir liefern nur experimentelle Daten und müssen immer noch unser Bestes in unseren eigenen Aufgaben geben, um Schlussfolgerungen zu ziehen. Ein weiteres Modell, eine weitere Wahl.

F: Warum werden einige Datensätze nicht ausprobiert?
A: Um ehrlich zu sein, ich bin nicht in der Stimmung, mehr Daten zu finden. 2) Ich muss nicht; 3) Ich habe kein Geld;

F: Lassen Sie uns diese Modelle kurz bewerten
A: Jeder hat seinen eigenen Fokus und seine eigenen Stärken. Die Forschung und Entwicklung der chinesischen Verarbeitung natürlicher Sprache erfordert gemeinsame Anstrengungen aller Parteien.

F: Wie heißt das nächste vorhersehbare Modell, das Sie vorhersagen?
A: Vielleicht heißt es Zoe. Zoe: Null-Shot-Einbettung aus dem Sprachmodell

F: Weitere Details zum RoBERTa-wwm-ext Modell?
A: Wir integrieren die Vorteile von Roberta und Bert-WWM, um eine natürliche Kombination aus beiden zu erstellen. Der Unterschied zwischen den Modellen in diesem Verzeichnis ist wie folgt:
1) Verwenden Sie die WWM-Strategie, um die Phase vor dem Training zu maskieren (aber keine dynamische Maskierung)
2) Verlust der nächsten Satzvorhersage (NSP) einfach abbrechen
3) Verwenden Sie nicht mehr den Trainingsmodus von max_len = 128 und dann max_len = 512 direkt trainieren Sie Max_len = 512
4) Erweitern Sie die Schulungsschritte angemessen

Es sollte beachtet werden, dass dieses Modell nicht das ursprüngliche Roberta-Modell ist, sondern nur ein Bert-Modell, das in einer ähnlichen Roberta-Trainingsmethode trainiert wurde, nämlich Roberta-ähnliches Bert. Wenn Sie daher nachgeschaltete Aufgaben und Konvertierungsmodelle verwenden, verarbeiten Sie sie daher nicht in Bert und nicht in Roberta.

Zitat

Wenn die Ressourcen oder Technologien in diesem Projekt für Ihre Forschungsarbeiten hilfreich sind, lesen Sie bitte das folgende Papier im Papier.

Bevorzugt (Journal Explore): https://ieeexplore.ieee.org/document/9599397

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Oder (Konferenzversion): https://www.aclweb.org/anthology/2020.findings-emnlp.58

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

Anerkennung

Der Erstautor wird teilweise vom TPU Research Cloud -Programm von Google finanziert.

Haftungsausschluss

Dieses Projekt ist nicht das von Google offiziell veröffentlichte chinesische Bert-WWM-Modell. Gleichzeitig ist dieses Projekt kein offizielles Produkt des Harbin Institute of Technology oder Iflytek. Die im technischen Bericht vorgestellten experimentellen Ergebnisse zeigen nur, dass die Leistung unter einem bestimmten Datensatz und einer Hyperparameter -Kombination nicht die Art jedes Modells darstellt. Die experimentellen Ergebnisse können sich aufgrund von Zufallszahlensamen und Computergeräten ändern. Der Inhalt in diesem Projekt dient nur für technische Forschungsreferenz und wird nicht als abschließende Grundlage verwendet. Benutzer können das Modell jederzeit im Rahmen der Lizenz verwenden, aber wir sind nicht für direkte oder indirekte Verluste verantwortlich, die durch die Verwendung des Inhalts des Projekts verursacht werden.

Folgen Sie uns

Willkommen, um dem offiziellen WeChat Offiziellen Bericht des gemeinsamen Labors Iflytek zu folgen, um mehr über die neuesten technischen Trends zu erfahren.

Frage Feedback

Wenn Sie Fragen haben, senden Sie diese bitte in Github -Problem.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-16
Größe 15.63MB
Kommt von Github

Ähnliche Anwendungen

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Offizielle Version des Projektquellcodes für chinesische DOS-Spiele (chinesische DOS-Spiele im Browser).

2022-11-01