Bitune
1.0.0

Bitune: Bidirektionale Anweisungsabbau
[ Paper ] [ Website ]
Dieser Quellcode enthält die Implementierung von Bitune und reicht aus, um die Ergebnisse aus dem Papier zu reproduzieren. Bitte beachten Sie, dass es zur Erforschung verschiedener Ideen verwendet wurde, und viele Komponenten haben unterschiedliche Namen oder beziehen sich auf Konzepte, die nicht im Papier erwähnt wurden.
Wir planen, in naher Zukunft ein sauberes Repo für Bitune zu veröffentlichen.
Das lm-evaluation-harness Verzeichnis enthält das Repository von Eleutherai/LM-Evaluierungshärte, das an unsere Methode angepasst ist. Sie können es mit dem folgenden Befehl installieren:
pip install -e lm-evaluation-harnesscommon_0.sh .wandb für die Protokollierung. Aktualisieren Sie Zeile 57 von eval.py mit Ihrem wandb -Benutzernamen. instruct.sh aus.downstream.sh Skript aus. Stellen Sie sicher, dass die korrekte Anzahl von Aktualisierungsschritten festgelegt wird (basierend auf den im Anhang angegebenen Werten) und die entsprechenden Zeilen für den Datensatznamen, die Bewertungen (ganz unten) und den Methodennamen abzubauen.ablations.sh und führen Sie das Skript aus. models verfügbar sind:pass_scale_k , pass_scale_v ).enforce_bidir der forward() -Funktion.forward() -Funktion hinzugefügt, die für das Aufrufen der Bitune -Wrapper verantwortlich sind._pass_fn() in der Datei passes.py ):pass_scale_k , pass_scale_v ).peft Bibliothek inaktive Adapter als nicht abtrännbar festlegt.PassScale definiert in models/think_gemma.py ):forward() -Funktion, die den Mischvorgang basierend auf der in der Konfiguration angegebenen Variante ( config.pass_type ) anwendet. Unsere endgültige Methode wird durch die Variante 607 (die für Experimente verwendete) und die vereinfachte Version 801 definiert. Die folgenden Versionen der Bibliotheken wurden verwendet:
transformers==4.38.2peft==0.11.1datasets==2.18.0evaluate==0.4.0 @misc { kopiczko2024bitune ,
title = { Bitune: Bidirectional Instruction-Tuning } ,
author = { Dawid J. Kopiczko and Tijmen Blankevoort and Yuki M. Asano } ,
year = { 2024 } ,
eprint = { 2405.14862 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}