很棒的rlaif☄️
从AI反馈(RLAIF)中学习有关强化学习的相关文章和存储库的精心策划和更新的列表。特别是,在此列表中,我们跟踪以下动机:
- 使用RL以批评LM作为奖励模型来优化没有人类的LLM ,即。
- 使用LLM在自我评价循环中生成反馈。
一些列出的资源也可以视为RLHF的一部分:边境是模糊的。 RLHF已经有很棒的列表,因此,在这里我们重点关注前两个点。
文章
文章按时间顺序排序。
2024
- 2401.10020自我奖励语言模型
抽象的
我们认为,为了实现超人类代理,未来的模型需要超人反馈,以提供足够的训练信号。当前的方法通常是人类偏好的培训奖励模型,然后可以通过人类绩效水平瓶颈,其次,这些单独的冷冻奖励模型就无法在LLM培训期间学会改善。在这项工作中,我们研究了自我奖励的语言模型,其中语言模型本身是通过LLM-AS-A-Gudge使用的,促使在培训期间提供自己的奖励。我们表明,在迭代DPO培训中,不仅可以提高指导能力,还可以提高自身的高质量奖励。在我们的方法的三个迭代中进行微调的Llama 2 70b产生了一个模型,该模型优于Alpacaeval 2.0排行榜上的许多现有系统,包括Claude 2,Gemini Pro和GPT-4 0613。虽然仅进行了初步研究,但这项工作为这两个轴上的模型开辟了可能的可能性。
2023
2309.00267 RLAIF:通过AI反馈从人类反馈中学习缩放加强
抽象的
从人类反馈中学习(RLHF)可以有效地将大型语言模型(LLMS)与人类偏好保持一致,但是收集高质量的人类偏好标签是关键的瓶颈。我们对AI反馈(RLAIF)的RLHF与RL进行了面对面的比较 - 一种技术,由现成的LLM标记为代替人类,我们发现它们会产生类似的改进。关于汇总的任务,在约70%的病例中,人类评估者比基线监督的微调模型更喜欢来自RLAIF和RLHF的世代。此外,当被要求评估RLAIF与RLHF摘要时,人类更喜欢同等的速率。这些结果表明RLAIF可以产生人类水平的性能,为RLHF的可伸缩性限制提供潜在的解决方案。
2309.07124 RAIN:您的语言模型可以在不填充的情况下对齐
抽象的
大型语言模型(LLM)通常表现出与人类偏好的不一致之处。先前的研究收集了人类的偏好数据,然后使用强化学习或指导调整(即所谓的Finetuning步骤)对齐预训练的模型。相比之下,在没有任何额外数据的情况下将冷冻的LLM对准更具吸引力。这项工作探讨了后一种环境的潜力。我们发现,通过整合自我评估和倒流机制,未对齐的LLM可以通过自我增强来直接产生与人类偏好一致的反应。我们介绍了一种新颖的推理方法,可恢复自动回归推理(RAIN),允许预先训练的LLMS评估自己的一代,并使用评估结果来指导向后倒带和向前产生AI安全。值得注意的是,雨水无需额外的数据即可进行模型对齐,并避免任何培训,梯度计算或参数更新;在自我评估阶段,该模型通过固定的板板提示获得了指导,人类偏爱与之保持一致,从而消除了修改初始提示的需求。由GPT-4和人类评估的实验结果证明了降雨的有效性:在HH数据集上,降雨可提高Llama 30b的无害性质,而香草推断的无害性率从82%到97%,同时维持帮助率。在领先的对抗攻击LLM-攻击对Vicuna 33B的攻击下,Rain通过将攻击成功率从94%降低到19%,从而确立了新的防御基线。
2308.06385 Zyn:零射击奖励模型,没有问题
抽象的
在这项工作中,我们解决了将LLM的文本世代引导到所需行为的问题,将生成的文本与人类操作员的偏好保持一致。我们建议将另一个语言模型作为评论家,以零摄的方式奖励模型,这要归功于代表用户偏好的“是”问题的提示,而无需进一步标记的数据。这种零拍的奖励模型提供了学习信号,可以使用RLAIF中的增强学习来进一步调整基本LLM;然而,我们的方法在其他情况下也兼容,例如质量多样性搜索。通过与文本生成有关的不同领域的实验(包括排毒)提供了提出的Zyn框架能力的广泛证据。优化电影评论或任何其他属性的情感;指导该模型可能具有的特定主题的意见;并为文本图像任务的个性化提示生成器。
2307.12950 RLCD:从对比度蒸馏中学习的强化学习语言模型对齐方式
抽象的
我们提出了从对比蒸馏(RLCD)中学习的强化学习,这是一种使语言模型遵循自然语言原则而无需使用人类反馈的方法。 RLCD使用模拟偏好对训练偏好模型,该模型既包含高质量和低质量的示例,又使用对比鲜明的正和阴性提示产生。然后,使用偏好模型通过强化学习来改善基本的未对齐语言模型。从经验上讲,RLCD的表现优于RLAIF(Bai等,2022b)和上下文蒸馏(Huang等,2022)基线(Huang等,2022)基线,跨三个不同的对齐任务,无与伦比的,帮助和故事轮廓 - 以及在7b和30b模型尺度上的均可缩放,以获取PREFERDER DATAIM模拟。
2022
- 2212.08073宪法AI:AI反馈的无害性
抽象的
随着AI系统变得越来越有能力,我们希望获得他们的帮助来监督其他AIS。我们尝试通过自我完善训练无害的AI助手的方法,而没有任何人类标签可以识别有害产量。人类唯一的监督是通过规则或原则清单提供的,因此我们将该方法称为“宪法AI”。该过程既涉及监督的学习和强化学习阶段。在监督阶段,我们从初始模型中进行采样,然后生成自我批评和修订,然后对修订的响应进行原始模型进行捕获。在RL阶段,我们从填充模型中进行采样,使用模型评估两个样本中的哪个更好,然后从此AI偏好数据集中训练偏好模型。然后,我们使用偏好模型作为奖励信号进行训练,即我们使用“来自AI反馈的RL”(RLAIF)。结果,我们能够通过解释其对他们的反对意见来训练无害但非渗透的AI助手,该助手通过解释其反对意见。 SL和RL方法都可以利用经过深思熟虑的风格推理来提高人工智能决策的人为绩效和透明度。这些方法使得可以更精确地控制AI行为,并且具有较少的人类标签。
代码
在这里,我们跟踪与RLAIF相关的存储库和代码片段。
- 专制的变压器批评学习和发电的存储库
- 零射击奖励模型zyn:零射击奖励模型,没有问题
- 使用Langchain的宪法AI的自Citique链链自Critique链
贡献❤️
请,如果您想将资源包括在此列表中,请随时提交公关!