Prompt OIRLダウンロード - Prompt OIRLソースコードのダウンロード

Prompt OIRL

AI ソースコード

1.0.0

ダウンロード

？プロンプトオール：専門知識を持ってLLMSを促すことを学ぶ（既知の魔法の言葉？）

実装と？ ICLR 2024ペーパーのチュートリアル

紙のリンク
オープンレビューリンク

ニュース

（2024.2）（内部コードレビュー）GPT3.5とリリースされるTigerbotを使用したコード。
（2024.1）Prompt-OirlはICLR'2024によって受け入れられています。ウィーンであなたと話すことを楽しみにしています！
（2024.12）プロンプトオールは、ニューリップス会議で発表されました。非常に貴重なフィードバックをありがとう！
（2023.10）LLAMA2を使用したコードがリリースされました。
（2023.10）逆のアラインメントの例として、Prossip-Oirlがポジショニングペーパーで紹介されています。
（2023.9）プロンプトオールは、Neurips'2023のENLSPワークショップで口頭発表として選ばれました。

抽象的な

この研究では、ゼロショットプロンプトの最適化により、大規模な言語モデル（LLMS）の算術推論能力を強化することを目指しています。このような最適化におけるクエリ依存性の以前に見落とされがちな目的を特定し、迅速な最適化技術の成功した経済的設計を妨げる2つの課題を解明します。主な問題の1つは、黄金の答えが利用できない場合に、推論中にプロンプトを評価する効果的な方法がないことです。同時に、LLMとの相互作用を介して学習して、広大な自然言語を促すスペースを促すことで、リソースが集中していることがわかります。これに対処するために、オフラインの逆補強学習を活用して、オフラインで洞察を導き出してデモンストレーションデータを導入します。このようなデータは、オープンアクセス可能なデータセットに多様なプロンプトがベンチマークされている場合、副産物として存在します。プロンプトOirlを使用すると、クエリ依存のプロンプト最適化目標は、最初にオフライン報酬モデルを学習することで実現されます。このモデルは、LLMSにアクセスすることなく、任意のクエリプロムプトペアを評価できます。その後、最適なプロンプトを推奨するために、Best-of-n-n戦略が展開されます。さまざまなLLMスケールと算術推論データセットにわたる実験的評価は、提案されたアプローチの有効性と経済的実行可能性の両方を強調しています。

？やる気のある例

図1。すべてのクエリに機能する完璧なプロンプトはありません。最適なプロンプトはクエリ依存です。しかし、そのようなプロンプトの探求は、費用がかかり、非効率的です。プロンプトオールは、クエリ依存レベルでの推論時間中にプロンプトを効果的かつ費用効率を高めます。（動機付けの例については、GPT4との元のチャットログは、左、右側にあります）

再生

予備

結果を再現するには（例えば、llama2を使用）

llama-2を使用するライセンスを取得します。
SVAMP、GSM8K、MAWPS：データセットへのアクセスを取得します

仮想envを作成します

リポジトリをクローンします

 git clone [email protected]:holarissun/Prompt-OIRL.git

Python 3.10を使用して新しい仮想環境を作成します。

 conda create --name prompt-oirl python==3.10
conda activate prompt-oirl
cd Prompt-OIRL

要件をインストールします

 pip install -r requirements.txt

主な結果を再現します

ステップ1。（オプション、オフラインデータセットもリリースされているため）LLMと対話してオフラインデータセットを生成します。

このステップには長い時間がかかります---通常数日。このような計算上の高価（ローカルマシンでLLMを実行するとき）またはコスト（GPT3.5やTigerbotなどの市販のAPIを呼び出す場合）プロセスを繰り返すことを避けるために、実験で収集されたLLMとのインタラクティブログをすべてリリースしました。 。

たとえば、llama2モデルを使用して、オフラインデータセットを再現したい場合は、dir ofの下で作業する必要があります。

 [email protected]:facebookresearch/llama.git

Prompt-OIRL/llama_exps/llama_step1_gen_offline.pyをllamaフォルダーに移動します

それから

 torchrun --nproc_per_node 1 llama_step1_gen_offline.py 
   --ckpt_dir llama-2-7b-chat/ 
   --tokenizer_path tokenizer.model 
   --max_seq_len 512 --max_batch_size 8 --prompt_idx 0 --dataset_eval gsm8k

ステップ2。収集されたオフラインデータを再編成します

このステップは完了に数秒かかります。ファイルの名前変更とトレーニングテストの分割を実行し、対応するファイルを新しいフォルダーLMllama2に保存します。

 python3 llama_step2_reorg_data.py

ステップ3。オフラインデータを前処理します

このステップは完了に数秒かかります。データを処理し、 .npy形式ファイルを使用して、さまざまな実験設定（つまり、トレーニングプロンプトのさまざまな可用性がある）の埋め込みとラベルを保存します。

 python3 llama_step3_data_processing.py

ステップ4。プロキシ報酬モデル学習（つまり、オフラインのプロンプト評価）

このステップは、選択したアルゴリズムとプロセッサに応じて、数時間から数時間かかります。一般に、Xgboost Rewardモデルのトレーニングには少し時間がかかり、LightGBM報酬モデルの使用はより速い場合があります。

 python3 llama_step4_offline_evaluation.py

ステップ5。（オフライン）迅速な最適化

このステップには数分かかります。 LLMとの対話によってアルゴリズムを評価することもオプションになる可能性がありますが、遅くなる可能性があります。さまざまな設定の下での結果はすべて.csvファイルに保存されます

 python3 llama_step5_offline_optimization.py

注：このリンクから欠落している埋め込みファイルをダウンロードする必要がある場合があります。（Githubの特大、〜230MB）

RLHFに関する関連する議論：

Prompt-Oirlは、RLAIFアプローチを使用してLLMSのプロンプトの問題に対処します。 RLHFとRLAIFにも興味がある読者、およびRLとLLMの研究の交差点では、LLM研究でRLについて議論する関連するポジショニングペーパーを参照します。LLMSの時代のRL：何が不可欠ですか？何が必要ですか？ RLHF、プロンプト、そしてそれ以降。

bibtex引用

コードや紙を引用したい場合は、使用してください

 @inproceedings{sun2023query,
  title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL},
  author={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2024}
}


@article{sun2023reinforcement,
  title={Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2310.06147},
  year={2023}
}

拡大する

追加情報