Awesome-rlaif☄️
AIフィードバック(RLAIF)からの補強学習に関する関連する記事とリポジトリのキュレーションおよび更新されたリスト。特に、このリストでは、次の動機を追跡します。
- RLを使用して、人間なしでLLMを最適化する、つまり、批評LMを報酬モデルとして批評します。
- LLMSを使用して、自己批判ループでフィードバックを生成します。
リストされているリソースの一部は、RLHFの一部と見なすこともできます。フロンティアはぼやけています。 RLHFの素晴らしいリストはすでにあります。したがって、ここでは、前の2つのポイントに焦点を当てています。
記事
記事は年代順にソートされています。
2024
- 2401.10020自己報酬言語モデル
抽象的な
私たちは、超人的なエージェントを達成するために、将来のモデルが適切なトレーニング信号を提供するために超人的なフィードバックを必要とすると仮定します。現在のアプローチは一般に、人間の好みから報酬モデルを訓練します。これは、人間のパフォーマンスレベルによってボトルネックされる可能性があり、次にこれらの別々の凍結報酬モデルがLLMトレーニング中に改善することを学ぶことができません。この作業では、自己報酬の言語モデルを研究します。ここでは、言語モデル自体がLLM-As-a-a-a-a-Judgeプロンプトを介して使用され、トレーニング中に独自の報酬を提供します。反復DPOトレーニング中に、能力に続く能力が向上するだけでなく、高品質の報酬を提供する能力もそれ自体に提供する能力を示しています。私たちのアプローチの3回の反復で微調整されたLlama 2 70bは、Claude 2、Gemini Pro、GPT-4 0613を含むAlpacaeval 2.0リーダーボード上の多くの既存のシステムを上回るモデルを生成します。
2023
2309.00267 RLAIF:AIフィードバックを使用した人間のフィードバックからの補強補強学習
抽象的な
人間のフィードバック(RLHF)からの強化学習は、大規模な言語モデル(LLM)を人間の好みに合わせるのに効果的ですが、高品質の人間の好みラベルを収集することが重要なボトルネックです。 AIフィードバック(RLAIF)からのRLHF対RLの直接比較を行います。これは、人間の代わりに既製のLLMによって好みがラベル付けされる技術であり、同様の改善につながることがわかります。要約のタスクについては、人間の評価者は、症例の約70%でベースラインの監視された微調整モデルよりも、RLAIFとRLHFの両方からの世代を好みます。さらに、RLAIF対RLHFの概要を評価するように求められた場合、人間は両方を同等の速度で好みます。これらの結果は、RLAIFが人間レベルのパフォーマンスをもたらし、RLHFのスケーラビリティ制限に対する潜在的なソリューションを提供できることを示唆しています。
2309.07124雨:あなたの言語モデルは微調整せずに自分自身を整列させることができます
抽象的な
大規模な言語モデル(LLM)は、多くの場合、人間の好みとの矛盾を示します。以前の研究では、人間の選好データを収集し、強化学習または指導の調整であるいわゆる微調整ステップを使用して、事前に訓練されたモデルを整列させました。対照的に、追加のデータなしで冷凍LLMを調整することはより魅力的です。この作業では、後者の設定の可能性を探ります。自己評価と巻き戻しメカニズムを統合することにより、整理されていないLLMが自己加熱を介して人間の好みと一致する応答を直接生成できることがわかります。事前に訓練されたLLMが独自の生成を評価し、評価結果を使用してAIの安全性の後方巻き戻しと前方発電を導くことができる新しい推論方法、巻き戻し可能な自己回帰推論(雨)を導入します。特に、雨は、モデルアライメントのための追加データとトレーニング、グラデーションの計算、またはパラメーターの更新を控える必要なく動作します。自己評価段階では、モデルは、固定テンプレートプロンプトを介して人間の好みが一致するようにするガイダンスを受け取り、初期プロンプトを変更する必要性を排除します。 GPT-4と人間によって評価された実験結果は、雨の有効性を示しています。HHデータセットでは、雨はバニラ推論に対して82%から97%のラマ30Bの無害なレートを改善し、有用性率を維持します。 Vicuna 33Bの主要な敵対攻撃LLM攻撃の下で、Rainは攻撃の成功率を94%から19%に減らすことにより、新しい防御ベースラインを確立します。
2308.06385 Zyn:ゼロショット報酬モデルは、はい質問です
抽象的な
この作業では、LLMのテキスト世代を望ましい動作に向けるという問題に対処し、生成されたテキストを人間のオペレーターの好みに合わせます。別の言語モデルを批評家として使用することを提案します。これは、ラベル付きのデータを必要とせずに、ユーザーの好みを表すYES-Noの質問のプロンプトのおかげで、ゼロショットの方法でゼロショットの方法で報酬を与えます。このゼロショット報酬モデルは、RLAIFのように、補強学習を使用してベースLLMをさらに微調整するための学習信号を提供します。しかし、私たちのアプローチは、品質産物検索などの他のコンテキストでも互換性があります。提案されたZyNフレームワークの能力の広範な証拠は、解毒を含むテキスト生成に関連するさまざまなドメインでの実験を通じて提供されます。映画のレビューの感情、またはその他の属性の最適化。モデルが持つ可能性のある特定のトピックについての意見を操縦します。テキスト間タスクのプロンプトジェネレーターをパーソナライズします。
2307.12950 RLCD:言語モデルアライメントのコントラスト蒸留からの強化学習
抽象的な
コントラスト蒸留(RLCD)からの強化学習を提案します。これは、人間のフィードバックを使用せずに自然言語の原則に従うように言語モデルを調整する方法です。 RLCDは、対照的な正と負のプロンプトを使用して生成された高品質と低品質の両方の例を含むシミュレートされた優先ペアを使用して、優先モデルをトレーニングします。嗜好モデルを使用して、補強学習を介してベースの整列されていない言語モデルを改善します。経験的に、RLCDは、3つの多様なアライメントタスク(Huang et al。、2022)にわたってRLAIF(Bai et al。、2022b)およびコンテキスト蒸留(Huang et al。、2022)を上回ります。
2022
- 2212.08073憲法AI:AIフィードバックからの無害
抽象的な
AIシステムがより有能になるにつれて、他のAIを監督するために彼らの助けを求めたいと思います。有害な出力を識別する人間のラベルがなく、自己改善を通じて無害なAIアシスタントをトレーニングする方法を実験します。唯一の人間の監視は、ルールまたは原則のリストを通じて提供されるため、この方法を「憲法AI」と呼びます。このプロセスには、監視された学習と強化学習段階の両方が含まれます。監視されたフェーズでは、初期モデルからサンプリングし、自己批判と改訂を生成し、改訂された応答で元のモデルを微調整します。 RLフェーズでは、Finetunedモデルからサンプリングし、モデルを使用して2つのサンプルのどれが優れているかを評価し、AI設定のこのデータセットから優先モデルをトレーニングします。次に、優先モデルを報酬信号として使用してRLでトレーニングします。つまり、「AIフィードバックからのRL」(RLAIF)を使用します。その結果、私たちは、彼らへの異議を説明することにより、有害な質問に関与する無害ではあるが非避難的なAIアシスタントを訓練することができます。 SLとRLの両方のメソッドは、AIの意思決定の人間が判断したパフォーマンスと透明性を改善するために、チェーンオブ考えスタイルの推論を活用できます。これらの方法により、AIの動作をより正確に、そしてはるかに少ない人間のラベルを制御することが可能になります。
コード
ここでは、RLAIFに関連するリポジトリとコードスニペットを追跡します。
- Autocritトランス批評の学習と生成のためのリポジトリ
- Zero-Shot-Reward-Models Zyn:Yes-Noの質問を備えたゼロショット報酬モデル
- Langchainを使用して、憲法上のAIを使用した自己批判チェーンの自己批判チェーン
貢献します❤️
このリストにリソースを含めたい場合は、お気軽にPRを提出してください!