TextBrewer Download - TextBrewer Quellcode herunterladen

TextBrewer

Anderer Quellcode

TextBrewer 0.2.1

Herunterladen

Englisch |中文说明

TextBrewer ist ein Pytorch-basierter Modelldestillations-Toolkit für die Verarbeitung natürlicher Sprache. Es enthält verschiedene Destillationstechniken sowohl aus dem NLP- als auch aus dem Lebenslauffeld und bietet ein benutzerfreundliches Destillations-Framework, mit dem Benutzer schnell mit den hochmodernen Destillationsmethoden experimentieren können, um das Modell mit einem relativ kleinen Opfer in der Leistung zu komprimieren und die Inferenzgeschwindigkeit zu reduzieren und die Speicherverwendung zu reduzieren.

Überprüfen Sie unser Papier über ACL-Anthologie oder Arxiv-Vorabdruck.

Vollständige Dokumentation

Nachricht

17. Dezember 2021

Wir haben ein Model -Puning -Toolkit -Textpruner veröffentlicht . Überprüfen Sie https://github.com/airaria/textpruner

24. Oktober 2021

Wir schlagen das erste vorgeborene Sprachmodell vor, das sich speziell auf chinesische Minderheitensprachen konzentriert. Überprüfen Sie: https: //github.com/ymcui/chinese-minority-plm

8. Juli 2021

Neue Beispiele mit Transformers 4
- Die aktuellen Beispiele (Exmaples/) wurden mit alten Versionen von Transformatoren geschrieben und können einige Verwirrungen und Fehler verursachen. Wir schreiben die Beispiele mit Transformers 4 in Jupyter -Notizbüchern um, die leicht zu befolgen und zu lernen sind.
- Die neuen Beispiele finden Sie unter Beispielen/Notebook_Examples. Siehe Beispiele für Details.

1. März 2021

Bert-EMD und benutzerdefinierte Brenner
- Wir haben ein Experiment mit Bert-EMD im MNLI Exmaple hinzugefügt. Bert-EMD ermöglicht es jeder mittleren Schülerschicht, aus allen Zwischenlehrerschichten adaptiv zu lernen, basierend auf der Optimierung der Entfernung von Earth Mover. Es ist also nicht erforderlich, das Matching -Schema anzugeben.
- Wir haben einen neuen EMDDistiller geschrieben, um Bert-EMD durchzuführen. Es zeigt, wie man einen benutzerdefinierten Brenner schreibt.
Aktualisiertes MNLI -Beispiel
- Wir haben die vorabgerufene_Pytorch_bert entfernt und stattdessen in allen Beispielen der MNLI die Transformers -Bibliothek verwendet.

Klicken Sie hier, um alte Nachrichten zu sehen

11. November 2020

Aktualisiert auf 0.2.1 :
- Flexiblere Destillation : Unterstützt das Füttern verschiedener Chargen an Schüler und Lehrer. Dies bedeutet, dass die Chargen für Schüler und Lehrer nicht mehr gleich sein müssen. Es kann zum Destillieren von Modellen mit unterschiedlichen Vokabeln verwendet werden (z. B. von Roberta bis Bert).
- Schnellere Destillation : Benutzer können jetzt die Lehrerausgaben voraberhalten und zwischenspeichern und dann den Cache in den Destiller füttern, um die Vorwärtspasszeit des Lehrers zu speichern.
  Weitere Informationen zu den oben genannten Merkmalen finden Sie unter Aussagen verschiedener Chargen an Schüler und Lehrer.
- MultiTaskDistiller unterstützt jetzt den Intermediate -Feature -Matching -Verlust.
- Tensorboard zeichnet jetzt detailliertere Verluste auf (KD -Verlust, Hard -Label -Verlust, übereinstimmende Verluste ...).
Siehe Details in Veröffentlichungen.

27. August 2020

Wir freuen uns, Ihnen mitteilen zu können, dass unser Modell über den Leim -Benchmark und die Check -Rangliste steht.

24. August 2020

Aktualisiert auf 0.2.0.1 :
- Fehler in MultiTaskDistiller und Trainingsschleifen behoben.

29. Juli 2020

Aktualisiert auf 0.2.0 :
- Die Unterstützung für verteilte datenparallele Schulungen mit DistributedDataParallel : TrainingConfig ist jetzt das Argument local_rank genau aufmerksam. Details finden Sie in der Dokumentation von TrainingConfig .
Es fügte ein Beispiel für die Destillation der chinesischen NER-Aufgabe hinzu, um verteiltes datenparalleles Training zu demonstrieren. Siehe Beispiele/msra_ner_example.

14. Juli 2020

Aktualisiert auf 0.1.10 :
- Unterstützt nun gemischtes Präzisionstraining mit Apex! Legen Sie einfach fp16 in TrainingConfig auf True ein. Details finden Sie in der Dokumentation von TrainingConfig .
- Die Option data_parallel in TrainingConfig hinzugefügt, um Daten parallele Schulungen und gemischte Präzisionstrainings zusammen zu aktivieren.

26. April 2020

Es wurden Ergebnisse der chinesischen NER -Task (MSRA NER) hinzugefügt.
Die Ergebnisse für die Destillation zum T12-Nano-Modell, das eine ähnliche Strkutur wie Electra-Small aufweist.
Aktualisierte einige Ergebnisse von Conll-2003, CMRC 2018 und DRCD.

22. April 2020

Aktualisiert auf 0.1.9 (Option Cache hinzugefügt, die die Destillation beschleunigt; einige Fehler behoben). Siehe Details in Veröffentlichungen.
Experimentale Ergebnisse für die Destillation der Elektrafasis in elektrafarbene Aufgaben hinzugefügt.
Textbrewer wurde von ACL 2020 als Demo -Papier akzeptiert. Bitte verwenden Sie unseren neuen BIB -Eintrag.

17. März 2020

CONLL-2003 ENGLISCH NER DESTILLATION Ereignis hinzugefügt. Siehe Beispiele/conll2003_example.

11. März 2020

Aktualisiert auf 0.1.8 (Verbesserungen der Trainingskonfigur- und Zugmethode). Siehe Details in Veröffentlichungen.

2. März 2020

Die erste öffentliche Version 0.1.7 wurde veröffentlicht. Siehe Details in Veröffentlichungen.

Inhaltsverzeichnis

Abschnitt	Inhalt
Einführung	Einführung in Textbrewer
Installation	So installieren
Workflow	Zwei Phasen des Textbrewer -Workflows
QuickStart	Beispiel: Bert-Base zu einer 3-Schicht-Bert destillieren
Experimente	Destillationsexperimente an typischen englischen und chinesischen Datensätzen
Kernkonzepte	Kurze Erklärungen der Kernkonzepte in Textbrewer
FAQ	Häufig gestellte Fragen
Bekannte Probleme	Bekannte Probleme
Zitat	Zitat zu Textbrewer
Folgen Sie uns	- -

Einführung

Textbrewer ist für die Wissensdestillation von NLP -Modellen ausgelegt. Es bietet verschiedene Destillationsmethoden und bietet ein Destillationsrahmen für die schnelle Einrichtung von Experimenten.

Die Hauptmerkmale von Textbrewer sind:

Wide -Support: Es unterstützt verschiedene Modellarchitekturen (insbesondere mit Transformator -basierte Modelle)
Flexibilität: Entwerfen Sie Ihr eigenes Destillationsschema, indem Sie verschiedene Techniken kombinieren. Es unterstützt auch benutzerdefinierte Verlustfunktionen, Module usw.
Einfach zu bedienender: Benutzer müssen die Modellarchitekturen nicht ändern
Erstellt für NLP: Es ist für eine Vielzahl von NLP -Aufgaben geeignet: Textklassifizierung, Maschinenlesung, Sequenzkennzeichnung, ...

Textbrewer wird derzeit mit den folgenden Destillationstechniken versendet:

Gemischtes Weichlabel und hartes Labeltraining
Dynamische Verlustgewichtsanpassung und Temperaturanpassung
Verschiedene Destillationsverlustfunktionen: Hidden States MSE, Aufmerksamkeitsmatrixbasis, Neuronselektivitätstransfer, ...
Freie Zwischenfunktionen frei hinzuzufügen, die übereinstimmende Verluste entsprechen
Destillation mit mehreren Lehrern
...

Textbrewer enthält:

Brenner : Die Kerne der Destillation. Unterschiedliche Distiller führen unterschiedliche Destillationsmodi durch. Es gibt Generaldistiller, MultiteacherDistiller, BasicTrainer usw.
Konfigurationen und Voreinstellungen : Konfigurationsklassen für Schulungen und Destillation sowie vordefinierte Destillationsverlustfunktionen und -strategien.
Dienstprogramme : Hilfswerkzeuge wie Modellparameteranalyse.

Um die Destillation zu beginnen, müssen Benutzer bereitstellen

Die Modelle (das ausgebildete Lehrermodell und das nicht ausgebildete Schülermodell )
Datensätze und Experimentkonfigurationen

Textbrewer hat bei mehreren typischen NLP -Aufgaben beeindruckende Ergebnisse erzielt. Siehe Experimente.

In der vollständigen Dokumentation finden Sie detaillierte Verwendungen.

Architektur

Installation

Anforderungen
- Python> = 3,6
- Pytorch> = 1.1.0
- Tensorboardx oder Tensorboard
- Numpy
- tqdm
- Transformatoren> = 2.0 (optional, anhand einiger Beispiele verwendet)
- Apex == 0.1.0 (Optionales, gemischtes Präzisionstraining)
Installieren Sie von PYPI
```
pip install textbrewer
```

Installieren Sie aus der Github -Quelle

git clone https://github.com/airaria/TextBrewer.git
pip install ./textbrewer

Workflow

Stufe 1 : Vorbereitung:
1. Trainieren Sie das Lehrermodell
2. Definieren und initialisieren Sie das Schülermodell
3. Konstruieren Sie einen Dataloader, einen Optimierer und einen Scheduler für Lernrate
Stufe 2 : Destillation mit Textbrewer:
1. Konstruieren Sie eine Traningconfig und eine Destillationconfig , initialisieren Sie einen Brenner
2. Definieren Sie einen Adapter und einen Rückruf . Der Adapter wird zur Anpassung von Modelleingaben und -ausgängen verwendet. Der Rückruf wird vom Brenner während des Trainings aufgerufen
3. Rufen Sie die Zugmethode des Brenners an

QuickStart

Hier zeigen wir die Verwendung von Textbrewer, indem wir Bert-Base zu einem 3-Schicht-Bert destillieren.

Vor der Destillation gehen wir davon aus, dass Benutzer bereitgestellt haben:

Ein ausgebildeter Lehrermodell teacher_model (Bert-Base) und ein zu-BE-ausgebildeter Schülermodell student_model (3-Layer-Bert).
Ein dataloader des Datensatzes, ein optimizer und ein Lernrate -Bauunternehmer oder scheduler_class und seine Argumente dict scheduler_dict .

Destilly mit Textbrewer:

 import textbrewer
from textbrewer import GeneralDistiller
from textbrewer import TrainingConfig , DistillationConfig

# Show the statistics of model parameters
print ( " n teacher_model's parametrers:" )
result , _ = textbrewer . utils . display_parameters ( teacher_model , max_level = 3 )
print ( result )

print ( "student_model's parametrers:" )
result , _ = textbrewer . utils . display_parameters ( student_model , max_level = 3 )
print ( result )

# Define an adaptor for interpreting the model inputs and outputs
def simple_adaptor ( batch , model_outputs ):
      # The second and third elements of model outputs are the logits and hidden states
    return { 'logits' : model_outputs [ 1 ],
            'hidden' : model_outputs [ 2 ]}

# Training configuration 
train_config = TrainingConfig ()
# Distillation configuration
# Matching different layers of the student and the teacher
distill_config = DistillationConfig (
    intermediate_matches = [    
     { 'layer_T' : 0 , 'layer_S' : 0 , 'feature' : 'hidden' , 'loss' : 'hidden_mse' , 'weight' : 1 },
     { 'layer_T' : 8 , 'layer_S' : 2 , 'feature' : 'hidden' , 'loss' : 'hidden_mse' , 'weight' : 1 }])

# Build distiller
distiller = GeneralDistiller (
    train_config = train_config , distill_config = distill_config ,
    model_T = teacher_model , model_S = student_model , 
    adaptor_T = simple_adaptor , adaptor_S = simple_adaptor )

# Start!
with distiller :
    distiller . train ( optimizer , dataloader , num_epochs = 1 , scheduler_class = scheduler_class , scheduler_args = scheduler_args , callback = None )

Beispiele

Notizbuchbeispiele mit Transformers 4
- Beispiele/Notebook_Examples/sst2.ipynb (Englisch): Training und Destillation Bert auf SST-2, einer englischen Satzklassifizierungsaufgabe.
- Beispiele/Notebook_Examples/msra_ner.ipynb (chinesisch): Training und Destillation von Bert auf MSRA Ner, einer chinesischen Sequenzkennzeichnung.
- Beispiele/Notebook_Examples/sqaudv1.1.ipynb (Englisch): Training und Destillation Bert auf Kader 1.1, eine englische MRC -Aufgabe.
Beispiele/random_token_example: Ein einfaches Spielspielzeugbeispiel, das die Verwendung von Textbrewer demonstriert. Dieses Beispiel führt eine Destillation in der Textklassifizierungsaufgabe mit zufälligen Token als Eingaben durch.
Beispiele/CMRC2018_example (Chinese): Destillation auf CMRC 2018, eine chinesische MRC -Aufgabe, die DRCD als Datenerweiterung verwendet.
Beispiele/mnli_example (englisch): Destillation auf MNLI, eine englische Klassifizierungsaufgabe für Satzpaare. Dieses Beispiel zeigt auch, wie die Destillation mit mehreren Lehrern durchführt.
Beispiele/conll2003_example (englisch): Destillation auf Conll-2003 English Ner-Aufgabe, die in Form der Sequenzmarkierung steht.
Beispiele/msra_ner_example (chinesische): Dieses Beispiel destilliert ein chinesisch-elektrafase-Modell für die MSRA-NER-Aufgabe mit verteiltem datenparallelem Training (Einzelknoten, Multi-GPU).

Experimente

Wir haben Destillationsexperimente an mehreren typischen englischen und chinesischen NLP -Datensätzen durchgeführt. Die Setups und Konfigurationen sind unten aufgeführt.

Modelle

Für englische Aufgaben ist das Lehrermodell von Bert-Base-Capting .
Bei chinesischen Aufgaben sind die Lehrermodelle Roberta-Wwm-EXT und Electra-Base, die vom Joint Laboratory of Hit und Iflytek Research veröffentlicht wurden.

Wir haben verschiedene Studentenmodelle getestet. Um mit den öffentlichen Ergebnissen zu vergleichen, werden die Studentenmodelle mit Standard-Transformatorblöcken mit Ausnahme von Bigru gebaut, einem bidirektionalen Gru mit einer Schicht. Die Architekturen sind unten aufgeführt. Beachten Sie, dass die Anzahl der Parameter die Einbettungsschicht enthält, jedoch nicht die Ausgangsschicht jeder spezifischen Aufgabe enthält.

Englische Modelle

Modell	#Layer	Versteckte Größe	Futtermittelgröße	#Params	Relative Größe
Bert-Base-Cased (Lehrer)	12	768	3072	108 m	100%
T6 (Student)	6	768	3072	65 m	60%
T3 (Student)	3	768	3072	44 m	41%
T3-Small (Student)	3	384	1536	17m	16%
T4-Tiny (Student)	4	312	1200	14m	13%
T12-Nano (Student)	12	256	1024	17m	16%
Bigru (Student)	- -	768	- -	31m	29%

Chinesische Modelle

Modell	#Layer	Versteckte Größe	Futtermittelgröße	#Params	Relative Größe
Roberta-wwm-text (Lehrer)	12	768	3072	102 m	100%
Elektrik-Basis (Lehrer)	12	768	3072	102 m	100%
T3 (Student)	3	768	3072	38m	37%
T3-Small (Student)	3	384	1536	14m	14%
T4-Tiny (Student)	4	312	1200	11m	11%
Electra-Small (Student)	12	256	1024	12 m	12%

Die T6-Architektur entspricht Distilbert ^[1] , Bert _6- PKD ^[2] und Bert-of-theseus ^[3] .
Die T4-Tiny-Architektur ist die gleiche wie Tinybert ^[4] .
T3 Architcure ist das gleiche wie Bert ₃ -PKD ^[2] .

Destillationskonfigurationen

 distill_config = DistillationConfig ( temperature = 8 , intermediate_matches = matches )
# Others arguments take the default values

matches sind für verschiedene Modelle unterschieden:

Modell	Übereinstimmungen
Bigru	Keiner
T6	L6_hidden_mse + l6_hidden_smmd
T3	L3_hidden_mse + l3_hidden_smmd
T3-Small	L3n_hidden_mse + l3_hidden_smmd
T4-tiny	L4t_hidden_mse + l4_hidden_smmd
T12-Nano	small_hidden_mse + small_hidden_smmd
Electra-Small	small_hidden_mse + small_hidden_smmd

Die Definitionen von Übereinstimmungen erfolgen bei Beispielen/Übereinstimmungen/Übereinstimmungen.py.

Wir verwenden Generaldistiller in allen Destillationsexperimenten.

Trainingskonfigurationen

Die Lernrate beträgt 1E-4 (sofern nicht anders angegeben).
Wir trainieren alle Modelle für 30 ~ 60 Epochen.

Ergebnisse auf englischen Datensätzen

Wir experimentieren mit den folgenden typischen englischen Datensätzen:

Datensatz	Aufgabentyp	Metriken	#Zug	#Dev	Notiz
Mnli	Textklassifizierung	m/mm ACC	393K	20k	Satzpaar 3-Klasse-Klassifizierung
Kader 1.1	Leseverständnis	EM/F1	88k	11k	Span-Extraction Machine Leseverständnis
Conll-2003	Sequenzmarkierung	F1	23k	6k	genannte Entitätserkennung

Wir listen die öffentlichen Ergebnisse von Distilbert, Bert-PKD, Bert-of-theseus, Tinybert und unseren Ergebnissen zum Vergleich.

Öffentliche Ergebnisse:

Modell (öffentlich)	Mnli	Kader	Conll-2003
Distilbert (T6)	81.6 / 81.1	78.1 / 86.2	- -
Bert ₆ -pkd (T6)	81.5 / 81.0	77.1 / 85.3	- -
Bert-of-theseus (T6)	82.4/ 82.1	- -	- -
Bert ₃ -pkd (T3)	76,7 / 76.3	- -	- -
Tinybert (T4-Tiny)	82.8 / 82.9	72.7 / 82.1	- -

Unsere Ergebnisse:

Modell (unser)	Mnli	Kader	Conll-2003
Bert-Base-Cased (Lehrer)	83.7 / 84.0	81.5 / 88.6	91.1
Bigru	- -	- -	85.3
T6	83,5 / 84.0	80.8 / 88.1	90.7
T3	81.8 / 82.7	76,4 / 84.9	87,5
T3-Small	81.3 / 81.7	72.3 / 81.4	78,6
T4-tiny	82.0 / 82.6	75,2 / 84.0	89.1
T12-Nano	83.2 / 83.9	79.0 / 86.6	89,6

Notiz :

Die äquivalenten Modellstrukturen öffentlicher Modelle werden in den Klammern nach ihren Namen gezeigt.
Bei der Destillation von T4-Tiny wird Newsqa zur Datenerweiterung im Kader verwendet, und HotpotQA wird für die Datenvergrößerung auf Conll-2003 verwendet.
Bei der Destillation auf T12-Nano wird Hotpotqa zur Datenerweiterung auf CONLL-2003 verwendet.

Ergebnisse auf chinesischen Datensätzen

Wir experimentieren mit den folgenden typischen chinesischen Datensätzen:

Datensatz	Aufgabentyp	Metriken	#Zug	#Dev	Notiz
Xnli	Textklassifizierung	Acc	393K	2,5K	Chinesische Übersetzungsversion von MNLI
LCQMC	Textklassifizierung	Acc	239K	8,8K	Satzpaar Matching, binäre Klassifizierung
CMRC 2018	Leseverständnis	EM/F1	10k	3.4k	Span-Extraction Machine Leseverständnis
DRCD	Leseverständnis	EM/F1	27k	3,5K	Span-Extraction Machine Leseverständnis (traditionelles Chinesisch)
MSRA NER	Sequenzmarkierung	F1	45k	3.4k (#Test)	Chinesisch genannte Entitätserkennung

Die Ergebnisse sind unten aufgeführt.

Modell	Xnli	LCQMC	CMRC 2018	DRCD
Roberta-wwm-text (Lehrer)	79,9	89,4	68.8 / 86.4	86.5 / 92.5
T3	78,4	89.0	66,4 / 84.2	78,2 / 86.4
T3-Small	76.0	88.1	58.0 / 79.3	75,8 / 84.8
T4-tiny	76,2	88,4	61.8 / 81.8	77.3 / 86.1

Modell	Xnli	LCQMC	CMRC 2018	DRCD	MSRA NER
Electra-Base (Lehrer))	77,8	89,8	65,6 / 84.7	86.9 / 92.3	95.14
Electra-Small	77,7	89.3	66,5 / 84.9	85,5 / 91.3	93.48

Notiz :

Der Verfall der Lernrate wird bei der Destillation bei CMRC 2018 und DRCD nicht verwendet.
CMRC 2018 und DRCD nehmen sich gegenseitig als Augmentationsdatensatz in der Destillation.
Die Einstellungen des Schulungsmodells für das Elektrik-Basis-Lehrer finden Sie bei Chinese-Electra .
Das Electra-Small-Student-Modell wird mit den vorbereiteten Gewichten initialisiert.

Kernkonzepte

Konfigurationen

TrainingConfig : Konfiguration im Zusammenhang mit dem allgemeinen Deep -Learning -Modelltraining
DistillationConfig : Konfiguration im Zusammenhang mit Destillationsmethoden

Brenner

Brenner sind für die Durchführung der tatsächlichen Experimente verantwortlich. Die folgenden Brenner sind verfügbar:

BasicDistiller : Single-Tacher-Single- Destillation, liefert grundlegende Destillationsstrategien.
GeneralDistiller (empfohlen): Ein-Task-Destillation mit einer Einführung von Einzelbechern unterstützt die Übereinstimmung mit Zwischenmerkmalen. Empfohlen die meiste Zeit .
MultiTeacherDistiller : Multitacher- Destillation, die mehrere Lehrermodelle (derselben Aufgabe) in ein einzelnes Schülermodell verwandelt. Diese Klasse unterstützt keine Zwischenfunktionen, die die Übereinstimmung mit den Übereinstimmungen unterstützen.
MultiTaskDistiller : Multi-Task -Destillation, die mehrere Lehrermodelle (unterschiedlicher Aufgaben) in einen einzelnen Schüler verwandelt.
BasicTrainer : Übersichtliches Training Ein einzelnes Modell auf einem beschrifteten Datensatz, nicht für die Destillation. Es kann verwendet werden, um ein Lehrermodell auszubilden .

Benutzerdefinierte Funktionen

In Textbrewer gibt es zwei Funktionen, die von Benutzern implementiert werden sollten: Rückruf und Adapter .

Rückruf

An jedem Checkpoint wird nach dem Speichern des Studentenmodells die Rückruffunktion vom Distiller aufgerufen. Ein Rückruf kann verwendet werden, um die Leistung des Schülermodells an jedem Kontrollpunkt zu bewerten.

Adapter

Es konvertiert die Modelleingänge und -ausgänge in das angegebene Format, sodass sie durch den Destiller erkannt werden können, und die Destillationsverluste können berechnet werden. Bei jedem Trainingsschritt werden Batch- und Modellausgaben an den Adapter übergeben. Der Adapter organisiert die Daten neu und gibt ein Wörterbuch zurück.

Weitere Informationen finden Sie in den Erklärungen in vollständiger Dokumentation.

FAQ

F : Wie kann man das Schülermodell initialisieren?

A : Das Schülermodell kann zufällig initialisiert werden (dh ohne Vorkenntnisse) oder durch vorgebliebene Gewichte initialisiert werden. Wenn Sie beispielsweise ein Bert-Base-Modell in einen 3-Schicht-Bert destillieren, können Sie das Schülermodell mit RBT3 (für chinesische Aufgaben) oder den ersten drei Schichten von Bert (für englische Aufgaben) initialisieren, um kaltes Startproblem zu vermeiden. Wir empfehlen, dass Benutzer vorhandene Schülermodelle verwenden, um die groß angelegte Vorausbildung vollständig zu nutzen.

F : So setzen Sie Trainingshyperparameter für die Destillationsexperimente？

A : Wissensdestillation erfordert in der Regel mehr Trainings -Epochen und größere Lernrate als das Training auf dem beschrifteten Datensatz. Zum Beispiel benötigt die Trainingsqualcher auf Bert-Base normalerweise 3 Epochen mit LR = 3E-5; Die Destillation erfordert jedoch 30 ~ 50 Epochen mit LR = 1E-4. Die Schlussfolgerungen basieren auf unseren Experimenten, und es wird Ihnen empfohlen, Ihre eigenen Daten auszuprobieren .

F : Mein Lehrermodell und ein Schülermodell nehmen unterschiedliche Eingaben (sie teilen keine Vokabularien). Wie kann ich also destillieren?

A : Sie müssen dem Lehrer und dem Schüler verschiedene Chargen füttern. Siehe Abschnitt Füttere unterschiedliche Chargen an Schüler und Lehrer und füttere zwischengespeicherte Werte in der vollständigen Dokumentation.

F : Ich habe die Logits von meinem Lehrermodell gespeichert. Kann ich sie in der Destillation verwenden, um die Vorwärts -Pass -Zeit zu speichern?

A : Ja, siehe Abschnitt Füttere verschiedene Chargen an Schüler und Lehrer und füttere zwischengespeicherte Werte in der vollständigen Dokumentation.

Bekannte Probleme

~~Der Multi-GPU-Schulungsunterstützung ist derzeit nur über DataParallel verfügbar.~~
Die Klassifizierung von Multi-Label wird nicht unterstützt.

Zitat

Wenn Sie feststellen, dass Textbrewer hilfreich ist, zitieren Sie bitte unser Papier:

 @InProceedings { textbrewer-acl2020-demo ,
    title = " {T}ext{B}rewer: {A}n {O}pen-{S}ource {K}nowledge {D}istillation {T}oolkit for {N}atural {L}anguage {P}rocessing " ,
    author = " Yang, Ziqing and Cui, Yiming and Chen, Zhipeng and Che, Wanxiang and Liu, Ting and Wang, Shijin and Hu, Guoping " ,
    booktitle = " Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations " ,
    year = " 2020 " ,
    publisher = " Association for Computational Linguistics " ,
    url = " https://www.aclweb.org/anthology/2020.acl-demos.2 " ,
    pages = " 9--16 " ,
}

Folgen Sie uns

Folgen Sie unserem offiziellen WeChat -Konto, um über unsere neuesten Technologien auf dem Laufenden zu bleiben!

Expandieren

Zusätzliche Informationen

Version TextBrewer 0.2.1
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-17
Größe 7.03MB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22