Awesome-rlaif ☄️
Daftar artikel dan repositori yang relevan yang dikuratori dan diperbarui tentang pembelajaran penguatan dari umpan balik AI (RLAIF) . Secara khusus, dalam daftar ini kami melacak motif berikut:
- Menggunakan RL untuk mengoptimalkan LLM tanpa manusia , yaitu, dengan kritik LM sebagai model hadiah.
- Menggunakan LLM untuk menghasilkan umpan balik, dalam lingkaran kritik diri .
Beberapa sumber yang terdaftar juga dapat dianggap sebagai bagian dari RLHF: Perbatasan buram. Sudah ada daftar RLHF yang luar biasa, dengan demikian, di sini kita membuat fokus pada dua poin sebelumnya.
Artikel
Artikel diurutkan secara kronologis.
2024
- 2401.10020 Model Bahasa Mandiri
Abstrak
Kami berpendapat bahwa untuk mencapai agen manusia super, model masa depan memerlukan umpan balik manusia super untuk memberikan sinyal pelatihan yang memadai. Pendekatan saat ini biasanya melatih model hadiah dari preferensi manusia, yang kemudian dapat dihinakan oleh tingkat kinerja manusia, dan kedua model hadiah beku yang terpisah ini tidak dapat belajar untuk meningkatkan selama pelatihan LLM. Dalam karya ini, kami mempelajari model bahasa yang memanjakan diri sendiri, di mana model bahasa itu sendiri digunakan melalui LLM-as-A-Hakim meminta untuk memberikan imbalannya sendiri selama pelatihan. Kami menunjukkan bahwa selama pelatihan DPO berulang yang tidak hanya instruksi mengikuti kemampuan meningkat, tetapi juga kemampuan untuk memberikan hadiah berkualitas tinggi untuk dirinya sendiri. Fine-tuning Llama 2 70B pada tiga iterasi pendekatan kami menghasilkan model yang mengungguli banyak sistem yang ada di papan peringkat Alpacaeval 2.0, termasuk Claude 2, Gemini Pro, dan GPT-4 0613. Sementara hanya sebuah studi pendahuluan, pekerjaan ini membuka pintu ke kemungkinan model yang dapat meningkat secara terus-menerus dalam keduanya.
2023
2309.00267 RLAIF: Penskalaan Penguatan Pembelajaran dari Umpan Balik Manusia dengan Umpan Balik AI
Abstrak
Penguatan Penguatan dari Umpan Balik Manusia (RLHF) efektif untuk menyelaraskan model bahasa besar (LLM) dengan preferensi manusia, tetapi mengumpulkan label preferensi manusia berkualitas tinggi adalah hambatan utama. Kami melakukan perbandingan head-to-head RLHF vs RL dari umpan balik AI (RLAIF)-sebuah teknik di mana preferensi diberi label oleh LLM di luar rak sebagai pengganti manusia, dan kami menemukan bahwa mereka menghasilkan perbaikan yang sama. Pada tugas meringkas, evaluator manusia lebih suka generasi dari RLAIF dan RLHF daripada model fine-tuned yang diawasi baseline pada ~ 70% kasus. Selain itu, ketika diminta untuk menilai ringkasan RLAIF vs RLHF, manusia lebih suka keduanya pada tingkat yang sama. Hasil ini menunjukkan bahwa RLAIF dapat menghasilkan kinerja tingkat manusia, menawarkan solusi potensial untuk keterbatasan skalabilitas RLHF.
2309.07124 Hujan: Model bahasa Anda dapat menyelaraskan diri tanpa finetuning
Abstrak
Model bahasa besar (LLM) sering menunjukkan ketidakkonsistenan dengan preferensi manusia. Penelitian sebelumnya mengumpulkan data preferensi manusia dan kemudian menyelaraskan model pra-terlatih menggunakan pembelajaran penguatan atau penyetelan instruksi, yang disebut langkah finetuning. Sebaliknya, menyelaraskan LLM beku tanpa data tambahan lebih menarik. Pekerjaan ini mengeksplorasi potensi pengaturan yang terakhir. Kami menemukan bahwa dengan mengintegrasikan evaluasi diri dan mekanisme mundur, LLM yang tidak selaras dapat secara langsung menghasilkan respons yang konsisten dengan preferensi manusia melalui pengembangan diri. Kami memperkenalkan metode inferensi baru, inferensi auto-regresif (hujan) yang dapat ditindas, yang memungkinkan LLM pra-terlatih untuk mengevaluasi generasi mereka sendiri dan menggunakan hasil evaluasi untuk memandu mundur mundur dan generasi ke depan untuk keselamatan AI. Khususnya, hujan beroperasi tanpa memerlukan data tambahan untuk penyelarasan model dan abstain dari pelatihan apa pun, perhitungan gradien, atau pembaruan parameter; Selama fase evaluasi diri, model menerima panduan di mana preferensi manusia untuk menyelaraskan melalui prompt templat tetap, menghilangkan kebutuhan untuk memodifikasi prompt awal. Hasil eksperimen yang dievaluasi oleh GPT-4 dan manusia menunjukkan efektivitas hujan: pada dataset HH, hujan meningkatkan tingkat ketidakberdayaan Llama 30b atas inferensi vanilla dari 82% menjadi 97%, sambil mempertahankan tingkat bantuan. Di bawah serangan permusuhan terkemuka LLM-serangan di Vicuna 33B, Rain menetapkan garis dasar pertahanan baru dengan mengurangi tingkat keberhasilan serangan dari 94% menjadi 19%.
2308.06385 Zyn: Model hadiah Zero-shot dengan pertanyaan ya-tidak
Abstrak
Dalam karya ini, kami membahas masalah mengarahkan generasi teks dari LLM menuju perilaku yang diinginkan, menyelaraskan teks yang dihasilkan dengan preferensi operator manusia. Kami mengusulkan menggunakan model bahasa lain sebagai kritikus, model hadiah dengan cara nol-shot berkat prompt dari pertanyaan ya-tidak ada yang mewakili preferensi pengguna, tanpa memerlukan data berlabel lebih lanjut. Model hadiah zero-shot ini memberikan sinyal pembelajaran untuk lebih menyempurnakan LLM dasar menggunakan pembelajaran penguatan, seperti dalam RLAIF; Namun pendekatan kami juga kompatibel dalam konteks lain seperti pencarian keanekaragaman kualitas. Bukti ekstensif dari kemampuan kerangka Zyn yang diusulkan disediakan melalui percobaan di berbagai domain yang terkait dengan pembuatan teks, termasuk detoksifikasi; Mengoptimalkan sentimen ulasan film, atau atribut lainnya; Mengarahkan pendapat tentang topik tertentu yang mungkin dimiliki model; dan mempersonalisasikan generator yang cepat untuk tugas-tugas teks-ke-gambar.
2307.12950 RLCD: Pembelajaran Penguatan dari Distilasi Kontras untuk Penyelarasan Model Bahasa
Abstrak
Kami mengusulkan pembelajaran penguatan dari distilasi kontras (RLCD), metode untuk menyelaraskan model bahasa untuk mengikuti prinsip -prinsip bahasa alami tanpa menggunakan umpan balik manusia. RLCD melatih model preferensi menggunakan pasangan preferensi simulasi yang mengandung contoh berkualitas tinggi dan berkualitas rendah, dihasilkan menggunakan petunjuk positif dan negatif yang kontras. Model preferensi kemudian digunakan untuk meningkatkan model bahasa yang tidak selaras melalui pembelajaran penguatan. Secara empiris, RLCD mengungguli RLAIF (Bai et al., 2022b) dan Distilasi Konteks (Huang et al., 2022) di seluruh tiga tugas penyelarasan yang beragam-kelangsungan hidup, bantuan, dan generasi alur cerita-dan pada skala model 7B dan 30B untuk simulasi data preferensi.
2022
- 2212.08073 AI Konstitusi: tidak berbahaya dari umpan balik AI
Abstrak
Ketika sistem AI menjadi lebih mampu, kami ingin meminta bantuan mereka untuk mengawasi AI lainnya. Kami bereksperimen dengan metode untuk melatih asisten AI yang tidak berbahaya melalui peningkatan diri, tanpa label manusia yang mengidentifikasi output berbahaya. Satu -satunya pengawasan manusia diberikan melalui daftar aturan atau prinsip, dan jadi kami menyebut metode ini sebagai 'AI konstitusional'. Proses ini melibatkan pembelajaran yang diawasi dan fase pembelajaran penguatan. Pada fase yang diawasi kami mengambil sampel dari model awal, kemudian menghasilkan kritik dan revisi diri, dan kemudian Finetune model asli pada respons yang direvisi. Pada fase RL, kami sampel dari model finetuned, gunakan model untuk mengevaluasi mana dari dua sampel yang lebih baik, dan kemudian melatih model preferensi dari dataset preferensi AI ini. Kami kemudian berlatih dengan RL menggunakan model preferensi sebagai sinyal hadiah, yaitu kami menggunakan 'RL dari umpan balik AI' (RLAIF). Akibatnya kami dapat melatih asisten AI yang tidak berbahaya tetapi tidak evasif yang terlibat dengan pertanyaan berbahaya dengan menjelaskan keberatannya kepada mereka. Baik metode SL dan RL dapat memanfaatkan penalaran gaya rantai-dipikirkan untuk meningkatkan kinerja dan transparansi pengambilan keputusan AI manusia. Metode -metode ini memungkinkan untuk mengendalikan perilaku AI lebih tepat dan dengan label manusia yang jauh lebih sedikit.
Kode
Di sini kami melacak repositori dan cuplikan kode yang relevan dengan RLAIF.
- Autocrit Repositori untuk Pembelajaran dan Generasi Kritik Transformer
- Model Zero-Shot-Reward Zyn: Model Hadiah Zero-Shot dengan Pertanyaan Ya-Tidak
- rantai rantai kritik diri dengan ai konstitusional, menggunakan langchain
Berkontribusi ❤️
Tolong, jangan ragu untuk mengirimkan PR jika Anda ingin memasukkan sumber daya ke daftar ini!