Prompt OIRL下载 - Prompt OIRL源代码下载

Prompt OIRL

Ai源码

1.0.0

下载

？及时的女孩：学会提示具有专业知识的LLM（已知的魔术词？）

实施和？ ICLR 2024纸教程

纸链接
开放审查链接

消息

（2024.2）（内部代码审查）代码，带有GPT3.5和将发布Tigerbot。
（2024.1）迅速女郎已被ICLR'2024接受。我们期待在维也纳与您交谈！
（2024.12）迅速女郎已在Neurips会议上介绍。感谢所有宝贵的反馈！
（2023.10）与Llama2的代码已发布。
（2023.10）及时纸在定位纸中以反向对齐为例。
（2023.9）迅速女郎已被选为Neurips'2023的ENLSP研讨会的口头演示。

抽象的

在这项研究中，我们旨在通过零射击及时优化提高大语言模型（LLM）的算术推理能力。我们在这种优化中确定了以前被忽视的查询依赖性目标，并阐明了两种挑战，这些挑战阻碍了迅速优化技术的成功和经济设计。一个主要问题是没有有效的方法来评估在推断黄金答案时提示。同时，通过与LLM的互动来学习以导航宽敞的自然语言促使空间被证明是资源密集的。为了解决这个问题，我们介绍了及时的女郎，该及时启动女郎可以利用离线逆强化学习，以从离线提示示威数据中获取见解。当在可访问的数据集上对不同的提示进行基准测试时，这些数据存在为副产品。借助迅速女郎，通过首先学习离线奖励模型来实现与查询有关的及时优化目标。该模型可以在不访问llms的情况下评估任何查询促销对。随后，采用最佳的N策略来推荐最佳提示。我们在各种LLM量表和算术推理数据集中进行的实验评估强调了拟议方法的功效和经济可行性。

？激励榜样

图1。没有提示是适用于所有查询的完美之处。最佳提示与查询有关。然而，寻求此类提示可能是昂贵且效率低下的。迅速女郎在推理期间有效且具有成本效益在推理期间优化提示。（可以使用GPT4的原始聊天日志，用于那些激励示例，在左侧，右）

生殖

预赛

复制我们的结果（例如，使用Llama2）

获取使用Llama-2的许可证。
获取数据集：SVAMP，GSM8K，MAWPS

创建虚拟env

克隆存储库

 git clone [email protected]:holarissun/Prompt-OIRL.git

使用Python 3.10创建一个新的虚拟环境，例如

 conda create --name prompt-oirl python==3.10
conda activate prompt-oirl
cd Prompt-OIRL

安装要求

 pip install -r requirements.txt

重现主要结果

步骤1。（当我们发布离线数据集时，可选）通过与LLMS进行交互来生成离线数据集。

这个步骤将需要很长时间 - 通常几天。为了避免重复此类计算上的昂贵（在本地机器上运行LLM）或昂贵（调用GPT3.5或Tigerbot（Tigerbot）的商业API时，我们已经发布了与实验中收集的LLM的所有交互式日志。 。

例如，如果您想复制离线数据集，例如，使用Llama2模型，您需要在DIR下工作

 [email protected]:facebookresearch/llama.git

然后移动Prompt-OIRL/llama_exps/llama_step1_gen_offline.py到llama文件夹

然后

 torchrun --nproc_per_node 1 llama_step1_gen_offline.py 
   --ckpt_dir llama-2-7b-chat/ 
   --tokenizer_path tokenizer.model 
   --max_seq_len 512 --max_batch_size 8 --prompt_idx 0 --dataset_eval gsm8k

步骤2。重组收集的离线数据

此步骤将需要几秒钟才能完成，它将进行一些文件重命名和培训测试拆分，并将相应的文件保存到新的文件夹LMllama2

 python3 llama_step2_reorg_data.py

步骤3。预处理脱机数据

此步骤将需要几秒钟的时间才能完成，它将处理数据并存储嵌入式和标签，以使用.npy格式文件进行不同的实验设置（即，培训提示的不同可用性）。

 python3 llama_step3_data_processing.py

步骤4。代理奖励模型学习（即离线及时评估）

根据选择的算法和处理器，此步骤将需要几分钟到几个小时才能完成。通常，培训XGBoost奖励模型将需要更长的时间，并且使用LightGBM奖励模型可以更快。

 python3 llama_step4_offline_evaluation.py

步骤5。（离线）提示优化

此步骤将需要几分钟才能完成。通过与LLMS进行交互来评估算法也可以选择，但可能会较慢。在不同设置下的结果将全部保存到.csv文件

 python3 llama_step5_offline_optimization.py

注意：您可能需要从此链接下载缺少的嵌入文件。（github超大，〜230MB）

关于RLHF的相关讨论：

及时启动女性使用RLAIF方法解决了LLMS中的提示问题。对于也对RLHF和RLAIF感兴趣的读者，以及在RL和LLM研究之间的交集中，我们将参考与LLM研究中讨论RL的相关定位论文：LLMS时代的RL：什么是必不可少的？需要什么？ rlhf，提示，及以后。

Bibtex引用

如果您想引用我们的代码或纸张，请使用

 @inproceedings{sun2023query,
  title={Query-Dependent Prompt Evaluation and Optimization with Offline Inverse RL},
  author={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela},
  booktitle={The Twelfth International Conference on Learning Representations},
  year={2024}
}


@article{sun2023reinforcement,
  title={Reinforcement Learning in the Era of LLMs: What is Essential? What is needed? An RL Perspective on RLHF, Prompting, and Beyond},
  author={Sun, Hao},
  journal={arXiv preprint arXiv:2310.06147},
  year={2023}
}

展开

附加信息