electra_pytorch Download - electra_pytorch Quellcode Download

electra_pytorch

Anderer Quellcode

1.0.0

Herunterladen

Inoffizielle Pytorch -Implementierung von

Electra: Textcodierer vor dem Training eher als Diskriminatoren als Generatoren von Kevin Clark. Minh-Thang Luong. Quoc V. Le. Christopher D. Manning

※ Folgen Sie für Updates und weitere Arbeiten in der Zukunft

Replizierte Ergebnisse

Ich habe Electra-Small von Grund auf neu und habe die Ergebnisse des Papiers auf Kleber erfolgreich repliziert.

Modell	Cola	Sst	MRPC	Sts	QQP	Mnli	Qnli	Rte	Avg. von avg.
Electra-Small-Owt	56,8	88.3	87,4	86,8	88.3	78,9	87,9	68,5	80.36
Electra-Small-Owt (mein)	58.72	88.03	86.04	86.16	88.63	80.4	87,45	67,46	80.36

Tabelle 1: Ergebnisse am Kleber -Dev -Set. Das offizielle Ergebnis ergibt sich aus den erwarteten Ergebnissen. Die Bewertungen sind die durchschnittlichen Punktzahlen, die aus demselben Kontrollpunkt abgeschlossen sind. (Siehe dieses Problem) Mein Ergebnis kommt von der Vorbereitung eines Modells von Grund auf und nimmt für jede Aufgabe den Durchschnitt von 10 Finetuning -Läufen. Beide Ergebnisse werden auf OpenWebtext Corpus trainiert

Modell	Cola	Sst	MRPC	Sts	QQP	Mnli	Qnli	Rte	Avg.
Electra-Small ++	55.6	91.1	84.9	84.6	88.0	81.6	88.3	63.6	79,7
Electra-Small ++ (mein)	54,8	91.6	84.6	84.2	88,5	82	89	64.7	79,92

Tabelle 2: Ergebnisse beim Klebetestsatz. Mein Ergebnis finanziert den vorgenannten Checkpoint, der vom Umarmungsface geladen wurde.

Offizielle Ausbildungsverlustkurve	Meine Trainingsverlustkurve

Tabelle 3: Beide sind kleine Modelle, die auf OpenWebtext trainiert wurden. Der Beamte ist von hier. Sie sollten den Wert des Trainingsverlusts mit einem Salzkorn nehmen, da es die Leistung von nachgeschalteten Aufgaben nicht widerspiegelt.

Merkmale dieser Implementierung

Sie müssen Datensätze nicht manuell herunterladen und verarbeiten, die Scirpt achten diese für Sie automatisch. (Dank an Huggingface/Datensätze und Hugginface/Transformers)
AFAIK, die engste Neuauflagen für die ursprüngliche, kümmert sich um viele leicht übersehene Details (unten beschrieben).
Afaik, der einzige, validiert sich erfolgreich, indem er die Ergebnisse im Papier repliziert.
Kommt mit Jupyter -Notizbüchern, mit denen Sie den Code untersuchen und die verarbeiteten Daten inspizieren können.
Sie müssen nichts selbst herunterladen und vorbereiten. Alles, was Sie brauchen, ist, das Trainingsskript auszuführen.

Weitere Ergebnisse

Wie stabil ist Electra Pretcraining?

Bedeuten	Std	Max	Min	#models
81.38	0,57	82.23	80.42	14

Tafel 4: Statistiken der Kleberdeteergebnisse für kleine Modelle. Jedes Modell wird von Grund auf mit unterschiedlichen Samen vorbereitet und für 10 zufällige Läufe für jede Kleberaufgabe finationstuniert. Die Punktzahl eines Modells ist der Durchschnitt der besten von 10 für jede Aufgabe. (Der Prozess ist genauso wie der im Papier beschriebene.) Wie wir sehen können, verspottet Electra eine gute Trainingsstabilität.

Wie stabil ist Electra Fetze für Kleber?

Modell	Cola	Sst	MRPC	Sts	QQP	Mnli	Qnli	Rte
Electra-Small-Owt (mein)	1.30	0,49	0,7	0,29	0,1	0,15	0,33	1.93

Tabelle 5: Standardabweichung für jede Aufgabe. Dies ist das gleiche Modell wie Tabelle 1, die für jede Aufgabe Fünfe 10 läuft.

Diskussion

Umarmungsface Forum Post
Fastai Forum Post

Verwendung

Hinweis: Dieses Projekt ist eigentlich für meine persönliche Forschung. Ich habe also nicht versucht, für alle Benutzer zu bedienen, aber es einfach zu lesen und zu ändern.

Anforderungen installieren

pip3 install -r requirements.txt

Schritte

python pretrain.py
Legen Sie pretrained_checkcpoint in finetune.py vorab electra_pytorch/checkpoints/pretrain
python finetune.py (mit do_finetune auf True )
Gehen Sie zu Neptun, wählen Sie den besten Lauf von 10 Läufen für jede Aufgabe aus und stellen Sie th_runs in finetune.py gemäß den Zahlen in den Namen der von Ihnen ausgewählten Läufe ein.
python finetune.py (mit do_finetune auf False ), diese Outpus -Vorhersagen auf Testset können Sie dann komprimieren und .tsv S in electra_pytorch/test_outputs/<group_name>/*.tsv .

Notizen

Ich habe keine CLI -Argumente verwendet. Konfigurieren Sie also Optionen, die in MyConfig in den Python -Dateien auf Ihre Anforderungen eingeschlossen sind, bevor Sie sie ausführen. (Darunter finden Sie die Optionen für Vanilleeinstellungen.)
Sie benötigen ein Neptune -Konto und erstellen ein Neptune -Projekt auf der Website, um die Ergebnisse der Kleberfinetunierung aufzuzeichnen. Vergessen Sie nicht richarddwang/electra-glue durch den Namen Ihres Neptune-Projekts zu ersetzen
Die Python -Dateien pretrain.py , finetune.py werden tatsächlich von Pretrain.ipynb und Finetune_GLUE.ipynb konvertiert. Sie können diese Notizbücher auch verwenden, um Electra -Training und -Feckern zu erkunden.

Erweiterte Details

Im Folgenden sind die Details der ursprünglichen Implementierung/des ursprünglichen Papiers aufgeführt, die leicht übersehen werden können, und ich habe mich darum gekümmert. Ich fand, dass diese Details unverzichtbar sind, um die Ergebnisse des Papiers erfolgreich zu replizieren.

Optimierung

Verwenden von Adam Optimizer ohne Vorbettkorrektur (Bias -Korrektur ist für Adam Optimizer in Pytorch und Fastai standardmäßig)
Es gibt einen Fehler, die die Lernraten durch Ebenen in der offiziellen Implementierung verfallen, so dass LR bei der Fülle mehr abfällt als die in der Zeitung angegeben. Siehe _get_layer_lrs. Siehe auch dieses Problem.
Mit Clip -Gradienten
Verwenden Sie 0 Gewichtsverfall bei der Finetunierung des Klebstoffs
Es hat sich nicht aufgewärmt und dann linearer Verfall erledigt, sondern sie zusammen, was bedeutet, dass die Lernrate aufgewärmt und gleichzeitig während der Erwärmungsphase abfällt. Siehe hier

Datenverarbeitung

Für die Vorverarbeitung vor der Datenverarbeitung verkettet und verknüpft sie Sets, um die maximale Länge anzupassen, und stellt nicht mehr überein, wenn es am Ende eines Dokuments geht.
Für die Vorverarbeitung von Daten vor der Vorbereitung spaltet es den Text durch Zufall in Satz A und Satz B auf und ändert auch zufällig die maximale Länge
Für die Vorverarbeitung von Daten für das Finetuning folgt Berts Weg, um die längste von Satz A und B für die maximale Länge zu entsprechen

Trick

Für MRPC- und STS -Aufgaben erweitert es die Schulungsdaten, indem die gleichen Trainingsdaten hinzugefügt werden, aber mit ausgetauschtem Satz A und B. als "double_unorded" in der offiziellen Implementierung bezeichnet.
Es maskierte den Satz nicht wie Bert, innerhalb der Maskenwahrscheinlichkeit (15% oder eines anderen Wertes) von Tokens hat ein Token eine 85% ige Chance, durch [Maske] ersetzt zu werden, und 15% bleiben gleich, aber keine Chance, durch einen zufälligen Token ersetzt zu werden.

Bindungsparameter

Eingabe- und Ausgangswort -Einbettungen des Generators und Eingangswort -Einbettungen von Diskriminator. Die drei sind miteinander verbunden.
Es binde nicht nur ein Einbettungstyp von Wort/POS/Token -Typ, sondern auch die Norm in den Einbettungsschichten sowohl des Generators als auch des Diskriminators.

Andere

Die Ausgangsschicht wird durch die Standardinitialisierung von TensorFlow V1 initialisiert (dh Xavier -Uniform)
Verwenden von Gumbel Softmax, um Generationen von Geneartor als Eingabe des Diskriminators zu proben
Es verwendet einen Tropfen und eine lineare Schicht in der Ausgangsschicht für die Kleberfinetunierung, nicht das, was ElectraClassificationHead verwendet.
Alle öffentlichen Modell von Electra Checkpoints sind tatsächlich ++ Modell. Siehe dieses Problem
Der Generator von Hidden_size, Anzahl der Aufmerksamkeitsköpfe und Zwischengröße, jedoch nicht der Anzahl der Schichten.

Dateiarchitektur

Wenn Sie vorbereitet, Figune und Testergebnisse erstellen. electra_pytorch erzeugt diese für Sie.

 project root
|
|── datasets
|   |── glue
|       |── <task>
|       ...
|
|── checkpoints
|   |── pretrain
|   |   |── <base_run_name>_<seed>_<percent>.pth
|   |    ...
|   |
|   |── glue
|       |── <group_name>_<task>_<ith_run>.pth
|       ...
|
|── test_outputs
|   |── <group_name>
|   |   |── CoLA.tsv
|   |   ...
|   | 
|   | ...

Zitat

Originalpapier

 @inproceedings{clark2020electra,
  title = {{ELECTRA}: Pre-training Text Encoders as Discriminators Rather Than Generators},
  author = {Kevin Clark and Minh-Thang Luong and Quoc V. Le and Christopher D. Manning},
  booktitle = {ICLR},
  year = {2020},
  url = {https://openreview.net/pdf?id=r1xMH1BtvB}
}

Diese Implementierung.

 @misc{electra_pytorch,
  author = {Richard Wang},
  title = {PyTorch implementation of ELECTRA},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/richarddwang/electra_pytorch}}
}

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-16
Größe 51.92KB
Kommt von Github

Ähnliche Anwendungen

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

2022-06-28

electra_pytorch

Replizierte Ergebnisse

Merkmale dieser Implementierung

Weitere Ergebnisse

Wie stabil ist Electra Pretcraining?

Wie stabil ist Electra Fetze für Kleber?

Diskussion

Verwendung

Anforderungen installieren

Schritte

Notizen

Erweiterte Details

Optimierung

Datenverarbeitung

Trick

Bindungsparameter

Andere

Dateiarchitektur

Zitat

Originalpapier

Diese Implementierung.

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

pytorch image models

nextcloud_share_url_downloader

Lihua Datenanalyse-Engine, kostenlose Version 3.0_search_navigation_collection_public Opinion_Ranking_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express