MacBERT Download - MacBERT Source Code Download

MacBERT

Anderer Quellcode

1.0.0

Herunterladen

Vereinfachtes Chinesisch | Englisch

Dieses Verzeichnis enthält ** Macbert-Vorausgebildes Modell **, das eine fehlerkorrigierte Mask-Sprachmodell (MAC) vor der Training einführt, wodurch das Problem der Inkonsistenz "Pre-Training-Downstream-Aufgaben" lindert. Macbert hat signifikante Leistungsverbesserungen bei einer Vielzahl von NLP -Aufgaben erzielt.

Besuchen Sie vorab ausgebildete Modelle für die chinesische Verarbeitung natürlicher Sprache
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Shijin Wang, Guoping Hu
Veröffentlicht in Ergebnissen von EMNLP 2020

Chinesischer Macbert | Chinesische Elektrik | Chinesische xlnet | Knowledge Destillation Tool Textbrewer | Modellschneidwerkzeug Textpruner

Weitere Ressourcen, die von HFL veröffentlicht wurden: https://github.com/ymcui/hfl-anthology

Nachricht

2023/3/28 Open Source Chinese Lama & Alpaca Big Model, das schnell auf dem PC eingesetzt und erfahren werden kann, https://github.com/ymcui/chinese-lama-alpaca

2022/3/30 Veröffentlicht ein neues vorgeburtes Modell

2021/12/17 Veröffentlicht das Model Cropping Tool TextPruner: https://github.com/airaria/textpruner

2021/10/24 veröffentlicht das erste vorgeborene Modell für ethnische Minderheitensprachen: https://github.com/ymcui/chinese-minority-plm

2021/7/21 Das Buch "Natural Language Processing: Methoden basierend auf vorgeborenen Modellen" wurde offiziell veröffentlicht.

2020/11/3 Vorausgebildeter chinesischer Macbert wurde veröffentlicht und seine Nutzungsmethode entspricht der von Bert.

2020/9/15 Das Papier "Überarbeitung vorgebliebener Modelle für die chinesische Verarbeitung natürlicher Sprache" wurde als langer Artikel mit den Ergebnissen von EMNLP eingestellt.

Inhaltsverzeichnis

Kapitel	beschreiben
Einführung	Kurze Einführung in Macbert
herunterladen	Laden Sie Macbert herunter
Schnelles Laden	So verwenden Sie Transformatoren schnell laden Modelle
Grundlinieneffekt	Auswirkungen auf chinesische NLP -Aufgaben
FAQ	Häufig gestellte Fragen
Zitat	Artikelzitatinformationen

Einführung

Macbert ist eine verbesserte Version von Bert, die das fehlerkorrigierte Mask-Sprachmodell (MLM als Korrektur, MAC) vor der Training einführt und das Problem von "Voraussetzungsaufgaben" lindert.

Im Mask -Sprachmodell (MLM) wird das [Masken] -T -Tag zur Maskierung eingeführt, aber das [Mask] -Tag erscheint nicht in nachgeschalteten Aufgaben. In Macbert verwenden wir ähnliche Wörter, um das [Mask] -Tag zu ersetzen . Ähnliche Wörter werden vom Tool von Synonyme Toolkit (Wang und Hu, 2017) erhalten, und der Algorithmus wird basierend auf Word2VEC berechnet (Mikolov et al., 2013). Gleichzeitig haben wir auch die WWM (WWM) und N-Gramm-Maskierungstechnologien eingeführt. Beim Maskieren von N-Gram suchen wir ähnliche Wörter für jedes Wort in n-Gramm auf. Wenn es keine ähnlichen Wörter ersetzt, werden wir zufällige Wörter für den Austausch verwenden.

Das Folgende ist ein Beispiel für ein Trainingsbeispiel.

	Beispiel
Originalsatz	Wir verwenden ein Sprachmodell, um die Wahrscheinlichkeit des nächsten Wortes vorherzusagen.
Mlm	Wir verwenden eine Sprache [m] zu [m] ## di ## ct die Pro [m] ## Fähigkeit des nächsten Wortes.
Ganzes Wortmaskieren	Wir verwenden eine Sprache [m] zu [m] [m] [m] die [m] [m] des nächsten Wortes.
N-Gramm-Maskierung	Wir verwenden ein [m] [m] zu [m] [m] das [m] [m] das [m] [m] [m] nächste Wort.
MLM als Korrektur	Wir verwenden ein Textsystem, um die Fähigkeit des nächsten Wortes PO ## Si ## zu CA ## LC ## ulatieren.

Macberts Hauptframework ist genau das gleiche wie Bert, was nahtlose Übergänge ermöglicht, ohne vorhandenen Code zu ändern.

Weitere Informationen finden Sie in unserem Artikel: Überprüfen Sie die vorgebrachten Modelle für die Verarbeitung chinesischer natürlicher Sprache

herunterladen

Bietet hauptsächlich Modell -Downloads für TensorFlow 1.x Version.

MacBERT-large, Chinese : 24-Schicht, 1024 versteckte, 16-köpfige, 324m Parameter
MacBERT-base, Chinese : 12-Schicht, 768 versteckte, 12-Heads, 102 m Parameter

Modell	Google Drive	Baidu Disk	Größe
`MacBERT-large, Chinese`	Tensorflow	Tensorflow (PW: Zejf)	1,2g
`MacBERT-base, Chinese`	Tensorflow	Tensorflow (PW: 61GA)	383 m

Pytorch/TensorFlow2 -Version

Wenn Sie eine Pytorch- oder TensorFlow2 -Version des Modells benötigen:

Verwenden Sie Transformatoren zum Konvertieren
Oder laden Sie es von https://huggingface.co/hfl herunter

Laden Sie die Schritte herunter (Sie können das gesamte Verzeichnis auch direkt mit Git klonen):

Wählen Sie nach Eingabe https://huggingface.co/hfl ein Macbert-Modell wie Macbert-base: https://huggingface.co/hfl/chinese-macbert-base
Wählen Sie die Registerkarte "Dateien und Versionen" aus
Klicken Sie auf Bin/JSON und andere Dateien, die Sie zum Herunterladen benötigen

Schnelles Laden

Macbert -Modelle können schnell durch Transformatoren geladen werden.

 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")

Hinweis: Bitte verwenden Sie BertTokenizer und Bertmodel, um Macbert -Modelle zu laden!

Der entsprechende MODEL_NAME lautet wie folgt:

Originalmodell	Modellanrufname
Macbert-Large	HFL/Chinese-Macbert-Large
Macbert-Base	HFL/Chinese-Macbert-Base

Grundlinieneffekt

Hier finden Sie eine Anzeige des Effekts von Macbert auf 6 nachgeschaltete Aufgaben (siehe Papier für weitere Ergebnisse):

CMRC 2018 (Cui et al., 2019) : Extrahiertes Leseverständnis (vereinfachtes Chinesisch)
DRCD (Shao et al., 2018) : Extrahiertes Leseverständnis (traditionelles Chinesisch)
XNLI (Conneau et al., 2018) : Inferenz für natürliche Sprache
CHNSENTICORP : Emotionale Klassifizierung
LCQMC (Liu et al., 2018) : Satzpaar Matching
BQ Corpus (Chen et al., 2018) : Satzpaar Matching

Um die Stabilität der Ergebnisse zu gewährleisten, geben wir den Durchschnittswert (in Klammern) und den Maximalwert der unabhängigen Läufe zehnmal gleichzeitig an.

CMRC 2018

Der CMRC 2018 -Datensatz sind die vom Joint Laboratory of Harbin Institute of Technology veröffentlichten chinesischen Daten des Maschinenlesung. Laut einer bestimmten Frage muss das System Fragmente aus dem Kapitel als Antwort in der gleichen Form wie Kader extrahieren. Bewertungsindikatoren sind: EM / F1

Modell	Entwicklung	Prüfen	Herausforderung	#Params
Bert-Base	65,5 (64,4) / 84,5 (84,0)	70,0 (68,7) / 87,0 (86,3)	18,6 (17.0) / 43,3 (41,3)	102 m
Bert-wwm	66,3 (65,0) / 85,6 (84,7)	70,5 (69,1) / 87,4 (86,7)	21.0 (19.3) / 47.0 (43,9)	102 m
Bert-wwm-ot	67,1 (65,6) / 85,7 (85,0)	71,4 (70,0) / 87,7 (87,0)	24.0 (20.0) / 47,3 (44,6)	102 m
Roberta-wwm-text	67,4 (66,5) / 87,2 (86,5)	72,6 (71,4) / 89,4 (88,8)	26,2 (24,6) / 51,0 (49,1)	102 m
Elektrikbasis	68,4 (68,0) / 84,8 (84,6)	73,1 (72,7) / 87,1 (86,9)	22,6 (21,7) / 45.0 (43,8)	102 m
Macbert-Base	68,5 (67,3) / 87,9 (87,1)	73,2 (72,4) / 89,5 (89,2)	30,2 (26,4) / 54,0 (52,2)	102 m
Elektrafarge	69,1 (68,2) / 85,2 (84,5)	73,9 (72,8) / 87,1 (86,6)	23.0 (21,6) / 44,2 (43,2)	324 m
Roberta-wwm-text-large	68,5 (67,6) / 88,4 (87,9)	74,2 (72,4) / 90,6 (90,0)	31,5 (30,1) / 60,1 (57,5)	324 m
Macbert-Large	70,7 (68,6) / 88,9 (88,2)	74,8 (73,2) / 90,7 (90,1)	31.9 (29,6) / 60,2 (57,6)	324 m

DRCD

Der DRCD -Datensatz wurde vom Delta Research Institute in Taiwan, China, veröffentlicht. Seine Form ist die gleiche wie der Kader und ein extrahierter Leseverständnis -Datensatz, der auf traditionellen Chinesen basiert. Da traditionelle chinesische Charaktere von Ernie entfernt werden, wird nicht empfohlen, Ernie (oder es in vereinfachte Chinesen zu vereinfachen und dann verarbeiten) für traditionelle chinesische Daten zu verwenden. Bewertungsindikatoren sind: EM / F1

Modell	Entwicklung	Prüfen	#Params
Bert-Base	83.1 (82,7) / 89,9 (89,6)	82,2 (81,6) / 89,2 (88,8)	102 m
Bert-wwm	84,3 (83,4) / 90,5 (90,2)	82,8 (81,8) / 89,7 (89,0)	102 m
Bert-wwm-ot	85,0 (84,5) / 91,2 (90,9)	83,6 (83,0) / 90,4 (89,9)	102 m
Roberta-wwm-text	86,6 (85,9) / 92,5 (92,2)	85,6 (85,2) / 92.0 (91,7)	102 m
Elektrikbasis	87,5 (87,0) / 92,5 (92,3)	86,9 (86,6) / 91,8 (91,7)	102 m
Macbert-Base	89,4 (89,2) / 94,3 (94,1)	89,5 (88,7) / 93,8 (93,5)	102 m
Elektrafarge	88,8 (88,7) / 93,3 (93,2)	88,8 (88,2) / 93,6 (93,2)	324 m
Roberta-wwm-text-large	89,6 (89,1) / 94,8 (94,4)	89,6 (88,9) / 94,5 (94,1)	324 m
Macbert-Large	91,2 (90,8) / 95,6 (95,3)	91,7 (90,9) / 95,6 (95,3)	324 m

Xnli

In der Aufgabe der natürlichen Sprache inferenzieren wir XNLI -Daten, wodurch der Text in drei Kategorien unterteilt werden muss: entailment , neutral und contradictory . Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklung	Prüfen	#Params
Bert-Base	77,8 (77,4)	77,8 (77,5)	102 m
Bert-wwm	79,0 (78,4)	78,2 (78,0)	102 m
Bert-wwm-ot	79,4 (78,6)	78,7 (78,3)	102 m
Roberta-wwm-text	80.0 (79,2)	78,8 (78,3)	102 m
Elektrikbasis	77,9 (77,0)	78,4 (77,8)	102 m
Macbert-Base	80.3 (79,7)	79,3 (78,8)	102 m
Elektrafarge	81,5 (80,8)	81.0 (80,9)	324 m
Roberta-wwm-text-large	82.1 (81,3)	81,2 (80,6)	324 m
Macbert-Large	82.4 (81,8)	81,3 (80,6)	324 m

CHNSENTICORP

In der Aufgabe der Sentiment -Analyse ist der Datensatz der binären Emotionsklassifizierung chnSenticorp. Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklung	Prüfen	#Params
Bert-Base	94.7 (94,3)	95.0 (94,7)	102 m
Bert-wwm	95.1 (94,5)	95.4 (95.0)	102 m
Bert-wwm-ot	95,4 (94,6)	95.3 (94.7)	102 m
Roberta-wwm-text	95.0 (94,6)	95,6 (94,8)	102 m
Elektrikbasis	93,8 (93,0)	94,5 (93,5)	102 m
Macbert-Base	95.2 (94,8)	95.6 (94,9)	102 m
Elektrafarge	95.2 (94,6)	95.3 (94,8)	324 m
Roberta-wwm-text-large	95,8 (94,9)	95,8 (94,9)	324 m
Macbert-Large	95.7 (95.0)	95,9 (95.1)	324 m

LCQMC

LCQMC wurde vom Intelligent Computing Research Center der Harbin Institute of Technology Shenzhen Graduate School veröffentlicht. Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklung	Prüfen	#Params
Bert	89,4 (88,4)	86,9 (86,4)	102 m
Bert-wwm	89,4 (89,2)	87,0 (86,8)	102 m
Bert-wwm-ot	89,6 (89,2)	87,1 (86,6)	102 m
Roberta-wwm-text	89,0 (88,7)	86,4 (86,1)	102 m
Elektrikbasis	90,2 (89,8)	87,6 (87,3)	102 m
Macbert-Base	89,5 (89,3)	87,0 (86,5)	102 m
Elektrafarge	90,7 (90,4)	87,3 (87,2)	324 m
Roberta-wwm-text-large	90,4 (90,0)	87,0 (86,8)	324 m
Macbert-Large	90,6 (90,3)	87,6 (87,1)	324 m

BQ Corpus

BQ Corpus wird vom Intelligent Computing Research Center des Harbin Institute of Technology Shenzhen Graduate School veröffentlicht und ist ein Datensatz für das Bankenbereich. Der Bewertungsindikator ist: Genauigkeit

Modell	Entwicklung	Prüfen	#Params
Bert	86,0 (85,5)	84,8 (84,6)	102 m
Bert-wwm	86,1 (85,6)	85,2 (84,9)	102 m
Bert-wwm-ot	86,4 (85,5)	85,3 (84,8)	102 m
Roberta-wwm-text	86,0 (85,4)	85,0 (84,6)	102 m
Elektrikbasis	84,8 (84,7)	84,5 (84,0)	102 m
Macbert-Base	86,0 (85,5)	85,2 (84,9)	102 m
Elektrafarge	86,7 (86,2)	85,1 (84,8)	324 m
Roberta-wwm-text-large	86,3 (85,7)	85,8 (84,9)	324 m
Macbert-Large	86,2 (85,7)	85,6 (85,0)	324 m

FAQ

F1: Gibt es eine englische Version von Macbert?

A1: Im Moment keine.

F2: Wie benutzt ich Macbert?

A2: Genau wie Bert müssen Sie nur die Modelldatei und die Konfiguration ersetzen, um sie zu verwenden. Natürlich können Sie auch andere vorbereitete Modelle weiter schulen, indem Sie unser Modell laden (d. H. Abschnitt Transformatoren initialisieren).

F3: Können Sie Macbert -Trainingscode bereitstellen?

A3: Es gibt noch keinen Open -Source -Plan.

F4: Kann ich Open-Source-Korpus vorgebreitet?

A4: Wir können kein Open-Source-Trainingskorpus, da es kein Recht gibt, entsprechend neu zu veröffentlichen. Es gibt einige Open -Source -chinesische Corpus -Ressourcen auf GitHub, die Sie mehr aufmerksam machen und nutzen können.

F5: Gibt es Pläne, Macbert auf einem größeren Korpus und einer Open Source zu trainieren?

A5: Wir haben vorerst keine Pläne.

Zitat

Wenn die Ressourcen in diesem Projekt für Ihre Forschung hilfreich sind, geben Sie bitte das folgende Papier an.

 @inproceedings{cui-etal-2020-revisiting,
    title = "Revisiting Pre-Trained Models for {C}hinese Natural Language Processing",
    author = "Cui, Yiming  and
      Che, Wanxiang  and
      Liu, Ting  and
      Qin, Bing  and
      Wang, Shijin  and
      Hu, Guoping",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.findings-emnlp.58",
    pages = "657--668",
}

oder:

 @journal{cui-etal-2021-pretrain,
  title={Pre-Training with Whole Word Masking for Chinese BERT},
  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},
  journal={IEEE Transactions on Audio, Speech and Language Processing},
  year={2021},
  url={https://ieeexplore.ieee.org/document/9599397},
  doi={10.1109/TASLP.2021.3124365},
 }

Anerkennung

Vielen Dank an Google TPU Research Cloud (TFRC) für die Unterstützung für Computerressourcen.

Frage Feedback

Wenn Sie Fragen haben, senden Sie diese bitte in Github -Problem.

Überprüfen Sie vor dem Einreichen der Frage, ob die FAQ das Problem lösen kann. Es wird auch empfohlen, zu überprüfen, ob das vorherige Problem Ihr Problem lösen kann.
Wiederholte Fortpflanzungen und Probleme, die nicht mit diesem Projekt zusammenhängen, werden von [Stable-BOT] (Stale · Github-Marktplatz) verarbeitet.
Wir werden Ihre Fragen so weit wie möglich beantworten, aber wir können nicht garantieren, dass Ihre Fragen beantwortet werden.
Stellen Sie die Fragen höflich und bauen Sie eine harmonische Diskussionsgemeinschaft auf.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-18
Größe 134.22KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

MacBERT

Nachricht

Inhaltsverzeichnis

Einführung

herunterladen

Pytorch/TensorFlow2 -Version

Schnelles Laden

Grundlinieneffekt

CMRC 2018

DRCD

Xnli

CHNSENTICORP

LCQMC

BQ Corpus

FAQ

Zitat

Anerkennung

Frage Feedback

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express