SiLLM examples
1.0.0
これらの例の要件を必ずインストールしてください。
pip install -r requirements-examples.txt動作に影響を与え、推論中に生成された出力を生成するために使用できるモデルの隠された状態からの制御ベクトルをトレーニングするための例。
LORAトレーニングMistral-7B-Instruct-V0.2 with nvidia helpSteerデータセット。
helpsteer Directoryでtrain.shを実行して、Huggingfaceからデータセットとモデルをダウンロードし、LORAトレーニングを開始します。 config.ymlを編集して、トレーニング構成をカスタマイズできます。
DPOミックス7Kデータセットを使用したDPOトレーニングQWEN1.5-7B-CHAT。トレーニングは、監視された微調整(SFT)で構成され、その後に直接優先最適化(DPO)が続きます。
dpo-mix-7kディレクトリでtrain.shを実行して、Huggingfaceからデータセットとモデルをダウンロードし、トレーニングを開始します。構成ファイルsft.ymlおよびdpo.ymlを編集して、トレーニング構成をカスタマイズできます。
MMLUデータセットを使用した「大規模なマルチタスク言語理解」ベンチマークの実装。
評価したいモデルでmmlu.pyを実行します。
MMLU-Proデータセットを使用したMMLU-Proベンチマークの実装。
評価したいモデルを使用してmmlu-pro.pyを実行します。
ウィキペディア記事からのエントリパラグラフのサンプルデータセットの困惑スコアの計算。
評価したいモデルでperplexity.pyを実行します。量子化オプションを追加して、量子化されたモデルで困惑を評価します。