Prompt OIRL下載 - Prompt OIRL源代碼下載

Prompt OIRL

Ai源碼

1.0.0

下載

？及時的女孩：學會提示具有專業知識的LLM（已知的魔術詞？）

實施和？ ICLR 2024紙教程

紙鏈接
開放審查鏈接

消息

（2024.2）（內部代碼審查）代碼，帶有GPT3.5和將發布Tigerbot。
（2024.1）迅速女郎已被ICLR'2024接受。我們期待在維也納與您交談！
（2024.12）迅速女郎已在Neurips會議上介紹。感謝所有寶貴的反饋！
（2023.10）與Llama2的代碼已發布。
（2023.10）及時紙在定位紙中以反向對齊為例。
（2023.9）迅速女郎已被選為Neurips'2023的ENLSP研討會的口頭演示。

抽象的

在這項研究中，我們旨在通過零射擊及時優化提高大語言模型（LLM）的算術推理能力。我們在這種優化中確定了以前被忽視的查詢依賴性目標，並闡明了兩種挑戰，這些挑戰阻礙了迅速優化技術的成功和經濟設計。一個主要問題是沒有有效的方法來評估在推斷黃金答案時提示。同時，通過與LLM的互動來學習以導航寬敞的自然語言促使空間被證明是資源密集的。為了解決這個問題，我們介紹了及時的女郎，該及時啟動女郎可以利用離線逆強化學習，以從離線提示示威數據中獲取見解。當在可訪問的數據集上對不同的提示進行基準測試時，這些數據存在為副產品。借助迅速女郎，通過首先學習離線獎勵模型來實現與查詢有關的及時優化目標。該模型可以在不訪問llms的情況下評估任何查詢促銷對。隨後，採用最佳的N策略來推薦最佳提示。我們在各種LLM量表和算術推理數據集中進行的實驗評估強調了擬議方法的功效和經濟可行性。

？激勵榜樣

圖1。沒有提示是適用於所有查詢的完美之處。最佳提示與查詢有關。然而，尋求此類提示可能是昂貴且效率低下的。迅速女郎在推理期間有效且具有成本效益在推理期間優化提示。（可以使用GPT4的原始聊天日誌，用於那些激勵示例，在左側，右）

生殖

預賽

複製我們的結果（例如，使用Llama2）

獲取使用Llama-2的許可證。
獲取數據集：SVAMP，GSM8K，MAWPS

創建虛擬env

克隆存儲庫

 git clone [email protected]:holarissun/Prompt-OIRL.git

使用Python 3.10創建一個新的虛擬環境，例如

 conda create --name prompt-oirl python==3.10
conda activate prompt-oirl
cd Prompt-OIRL

安裝要求

 pip install -r requirements.txt

重現主要結果

步驟1。（當我們發布離線數據集時，可選）通過與LLMS進行交互來生成離線數據集。

這個步驟將需要很長時間 - 通常幾天。為了避免重複此類計算上的昂貴（在本地機器上運行LLM）或昂貴（調用GPT3.5或Tigerbot（Tigerbot）的商業API時，我們已經發布了與實驗中收集的LLM的所有交互式日誌。 。

例如，如果您想複製離線數據集，例如，使用Llama2模型，您需要在DIR下工作

 [email protected]:facebookresearch/llama.git

然後移動Prompt-OIRL/llama_exps/llama_step1_gen_offline.py到llama文件夾

然後

 torchrun --nproc_per_node 1 llama_step1_gen_offline.py 
   --ckpt_dir llama-2-7b-chat/ 
   --tokenizer_path tokenizer.model 
   --max_seq_len 512 --max_batch_size 8 --prompt_idx 0 --dataset_eval gsm8k

步驟2。重組收集的離線數據

此步驟將需要幾秒鐘才能完成，它將進行一些文件重命名和培訓測試拆分，並將相應的文件保存到新的文件夾LMllama2

 python3 llama_step2_reorg_data.py

步驟3。預處理脫機數據

此步驟將需要幾秒鐘的時間才能完成，它將處理數據並存儲嵌入式和標籤，以使用.npy格式文件進行不同的實驗設置（即，培訓提示的不同可用性）。

 python3 llama_step3_data_processing.py

步驟4。代理獎勵模型學習（即離線及時評估）

根據選擇的算法和處理器，此步驟將需要幾分鐘到幾個小時才能完成。通常，培訓XGBoost獎勵模型將需要更長的時間，並且使用LightGBM獎勵模型可以更快。

 python3 llama_step4_offline_evaluation.py

步驟5。（離線）提示優化

此步驟將需要幾分鐘才能完成。通過與LLMS進行交互來評估算法也可以選擇，但可能會較慢。在不同設置下的結果將全部保存到.csv文件

 python3 llama_step5_offline_optimization.py

注意：您可能需要從此鏈接下載缺少的嵌入文件。（github超大，〜230MB）

關於RLHF的相關討論：

及時啟動女性使用RLAIF方法解決了LLMS中的提示問題。對於也對RLHF和RLAIF感興趣的讀者，以及在RL和LLM研究之間的交集中，我們將參考與LLM研究中討論RL的相關定位論文：LLMS時代的RL：什麼是必不可少的？需要什麼？ rlhf，提示，及以後。

Bibtex引用

如果您想引用我們的代碼或紙張，請使用

 @inproceedings{sun2023query,
  title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL},
  author={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2024}
}


@article{sun2023reinforcement,
  title={Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2310.06147},
  year={2023}
}

展開

附加信息