BituneダウンロードBituneソースコードのダウンロード

Bitune

AI ソースコード

1.0.0

ダウンロード

Bitune：双方向の命令調整

[ Paper ] [ Website ]

このソースコードにはBituneの実装が含まれており、論文の結果を再現するだけで十分です。さまざまなアイデアを探求するために使用されていたことに注意してください。多くのコンポーネントは異なる名前を持っているか、論文で言及されていない概念を参照しています。

近い将来、Bituneのクリーンリポジトリをリリースする予定です。

lm-evaluation-harness

lm-evaluation-harness Directoryには、Eleutherai/LM-Evaluation-Harnessのリポジトリが含まれており、この方法に適合しています。次のコマンドでインストールできます。

pip install -e lm-evaluation-harness

構成

common_0.shファイルのこのディレクトリへの適切な絶対パスを設定します。
評価スクリプトでは、ロギングにwandbが必要です。 wandbユーザー名でeval.pyのライン57を更新します。

スクリプト

命令調整セットアップ： instruct.shスクリプトを実行します。
ダウンストリームタスクトレーニング： downstream.shのスクリプトを実行します。適切な数の更新手順（付録に記載されている値に基づいて）を設定し、データセット名、評価（最下部）、およびメソッド名の適切な行を除外してください。
アブレーション： ablations.shで選択されたアブレーションの行を除外して、スクリプトを実行します。

_^Spaghettiコードの簡単な概要

実装には、 modelsディレクトリで利用可能なハグFaceモデルクラスのいくつかの変更が必要でした。
- KV-Cacheを変更するため、勾配の計算グラフを保持します。
- トレーニング可能な係数（ pass_scale_k 、 pass_scale_v ）を備えたミキシングモジュールを追加しました。
- forward()関数のenforce_bidirパラメーターに基づく変更された注意マスク。
- Bituneラッパーの呼び出しを担当するforward()内にコードスニペットを追加しました。
bituneラッパー（ passes.pyファイルの_pass_fn() ）：
- 各パスに適切なLORAアダプターと注意マスクを設定しながら、2セットのKVキャッシュを取得するためにモデルを2回通過します。
- ミキシングモジュールを呼び出して、2セットの機能（ pass_scale_k 、 pass_scale_v ）を組み合わせます。
- （トレーニングの場合）回答を最終的にパスするか、最初の回答トークン（推論用）を生成します。トークンのさらなる生成の場合、プロンプトのKVキャッシュが既に取得および保存されているため、 Bituneラッパーはまったく呼び出されません。
- デフォルトでは、 peftライブラリが非アクティブアダプターを訓練不可に設定するため、すべてのLORAのパラメーターを再びトレーニング可能に設定します。
ミキシングモジュール（ models/think_gemma.pyで定義されているクラスPassScale ）：
- キーと値のために個別の2つの機能を混合するためのトレーニング可能な係数が含まれているため、モデルの注意ブロックごとに2つの係数が含まれています。
- config（ config.pass_type ）で指定されたバリアントに基づいて混合操作を適用するforward()関数を定義します。最終的な方法は、Variant 607 （実験に使用されるもの）とその簡素化されたバージョン801によって定義されます。

ライブラリバージョン

ライブラリの次のバージョンが使用されています。

transformers==4.38.2
peft==0.11.1
datasets==2.18.0
evaluate==0.4.0

bibtex

 @misc { kopiczko2024bitune ,
      title = { Bitune: Bidirectional Instruction-Tuning } ,
      author = { Dawid J. Kopiczko and Tijmen Blankevoort and Yuki M. Asano } ,
      year = { 2024 } ,
      eprint = { 2405.14862 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { cs.CL }
}