很棒的rlaif☄️
從AI反饋(RLAIF)中學習有關強化學習的相關文章和存儲庫的精心策劃和更新的列表。特別是,在此列表中,我們跟踪以下動機:
- 使用RL以批評LM作為獎勵模型來優化沒有人類的LLM ,即。
- 使用LLM在自我評價循環中生成反饋。
一些列出的資源也可以視為RLHF的一部分:邊境是模糊的。 RLHF已經有很棒的列表,因此,在這裡我們重點關注前兩個點。
文章
文章按時間順序排序。
2024
- 2401.10020自我獎勵語言模型
抽象的
我們認為,為了實現超人類代理,未來的模型需要超人反饋,以提供足夠的訓練信號。當前的方法通常是人類偏好的培訓獎勵模型,然後可以通過人類績效水平瓶頸,其次,這些單獨的冷凍獎勵模型就無法在LLM培訓期間學會改善。在這項工作中,我們研究了自我獎勵的語言模型,其中語言模型本身是通過LLM-AS-A-Gudge使用的,促使在培訓期間提供自己的獎勵。我們表明,在迭代DPO培訓中,不僅可以提高指導能力,還可以提高自身的高質量獎勵。在我們的方法的三個迭代中進行微調的Llama 2 70b產生了一個模型,該模型優於Alpacaeval 2.0排行榜上的許多現有系統,包括Claude 2,Gemini Pro和GPT-4 0613。雖然僅進行了初步研究,但這項工作為這兩個軸上的模型開闢了可能的可能性。
2023
2309.00267 RLAIF:通過AI反饋從人類反饋中學習縮放加強
抽象的
從人類反饋中學習(RLHF)可以有效地將大型語言模型(LLMS)與人類偏好保持一致,但是收集高質量的人類偏好標籤是關鍵的瓶頸。我們對AI反饋(RLAIF)的RLHF與RL進行了面對面的比較 - 一種技術,由現成的LLM標記為代替人類,我們發現它們會產生類似的改進。關於匯總的任務,在約70%的病例中,人類評估者比基線監督的微調模型更喜歡來自RLAIF和RLHF的世代。此外,當被要求評估RLAIF與RLHF摘要時,人類更喜歡同等的速率。這些結果表明RLAIF可以產生人類水平的性能,為RLHF的可伸縮性限制提供潛在的解決方案。
2309.07124 RAIN:您的語言模型可以在不填充的情況下對齊
抽象的
大型語言模型(LLM)通常表現出與人類偏好的不一致之處。先前的研究收集了人類的偏好數據,然後使用強化學習或指導調整(即所謂的Finetuning步驟)對齊預訓練的模型。相比之下,在沒有任何額外數據的情況下將冷凍的LLM對準更具吸引力。這項工作探討了後一種環境的潛力。我們發現,通過整合自我評估和倒流機制,未對齊的LLM可以通過自我增強來直接產生與人類偏好一致的反應。我們介紹了一種新穎的推理方法,可恢復自動回歸推理(RAIN),允許預先訓練的LLMS評估自己的一代,並使用評估結果來指導向後倒帶和向前產生AI安全。值得注意的是,雨水無需額外的數據即可進行模型對齊,並避免任何培訓,梯度計算或參數更新;在自我評估階段,該模型通過固定的板板提示獲得了指導,人類偏愛與之保持一致,從而消除了修改初始提示的需求。由GPT-4和人類評估的實驗結果證明了降雨的有效性:在HH數據集上,降雨可提高Llama 30b的無害性質,而香草推斷的無害性率從82%到97%,同時維持幫助率。在領先的對抗攻擊LLM-攻擊對Vicuna 33B的攻擊下,Rain通過將攻擊成功率從94%降低到19%,從而確立了新的防禦基線。
2308.06385 Zyn:零射擊獎勵模型,沒有問題
抽象的
在這項工作中,我們解決了將LLM的文本世代引導到所需行為的問題,將生成的文本與人類操作員的偏好保持一致。我們建議將另一個語言模型作為評論家,以零攝的方式獎勵模型,這要歸功於代表用戶偏好的“是”問題的提示,而無需進一步標記的數據。這種零拍的獎勵模型提供了學習信號,可以使用RLAIF中的增強學習來進一步調整基本LLM;然而,我們的方法在其他情況下也兼容,例如質量多樣性搜索。通過與文本生成有關的不同領域的實驗(包括排毒)提供了提出的Zyn框架能力的廣泛證據。優化電影評論或任何其他屬性的情感;指導該模型可能具有的特定主題的意見;並為文本圖像任務的個性化提示生成器。
2307.12950 RLCD:從對比度蒸餾中學習的強化學習語言模型對齊方式
抽象的
我們提出了從對比蒸餾(RLCD)中學習的強化學習,這是一種使語言模型遵循自然語言原則而無需使用人類反饋的方法。 RLCD使用模擬偏好對訓練偏好模型,該模型既包含高質量和低質量的示例,又使用對比鮮明的正和陰性提示產生。然後,使用偏好模型通過強化學習來改善基本的未對齊語言模型。從經驗上講,RLCD的表現優於RLAIF(Bai等,2022b)和上下文蒸餾(Huang等,2022)基線(Huang等,2022)基線,跨三個不同的對齊任務,無與倫比的,幫助和故事輪廓 - 以及在7b和30b模型尺度上的均可縮放,以獲取PREFERDER DATAIM模擬。
2022
- 2212.08073憲法AI:AI反饋的無害性
抽象的
隨著AI系統變得越來越有能力,我們希望獲得他們的幫助來監督其他AIS。我們嘗試通過自我完善訓練無害的AI助手的方法,而沒有任何人類標籤可以識別有害產量。人類唯一的監督是通過規則或原則清單提供的,因此我們將該方法稱為“憲法AI”。該過程既涉及監督的學習和強化學習階段。在監督階段,我們從初始模型中進行採樣,然後生成自我批評和修訂,然後對修訂的響應進行原始模型進行捕獲。在RL階段,我們從填充模型中進行採樣,使用模型評估兩個樣本中的哪個更好,然後從此AI偏好數據集中訓練偏好模型。然後,我們使用偏好模型作為獎勵信號進行訓練,即我們使用“來自AI反饋的RL”(RLAIF)。結果,我們能夠通過解釋其對他們的反對意見來訓練無害但非滲透的AI助手,該助手通過解釋其反對意見。 SL和RL方法都可以利用經過深思熟慮的風格推理來提高人工智能決策的人為績效和透明度。這些方法使得可以更精確地控制AI行為,並且具有較少的人類標籤。
代碼
在這裡,我們跟踪與RLAIF相關的存儲庫和代碼片段。
- 專制的變壓器批評學習和發電的存儲庫
- 零射擊獎勵模型zyn:零射擊獎勵模型,沒有問題
- 使用Langchain的憲法AI的自Citique鍊鍊自Critique鏈
貢獻❤️
請,如果您想將資源包括在此列表中,請隨時提交公關!