Awesome-align-llm-human
Kumpulan makalah dan sumber daya tentang menyelaraskan model bahasa besar (LLM) dengan manusia.
Model Bahasa Besar (LLM) yang dilatih pada korpora tekstual yang luas telah muncul sebagai solusi terkemuka untuk beragam tugas pemrosesan bahasa alami (NLP). Terlepas dari kinerjanya yang menonjol, model -model ini rentan terhadap keterbatasan tertentu seperti salah paham instruksi manusia, menghasilkan konten yang berpotensi bias, atau informasi yang salah (berhalusinasi) secara faktual. Oleh karena itu, menyelaraskan LLM dengan harapan manusia telah menjadi bidang minat yang aktif dalam komunitas penelitian. Survei ini menyajikan tinjauan komprehensif tentang teknologi penyelarasan ini, termasuk aspek -aspek berikut. (1) Pengumpulan Data (2) Metodologi Pelatihan (3) Evaluasi Model. Sebagai kesimpulan, kami menyusun dan menyaring temuan kami, menjelaskan beberapa jalan penelitian di masa depan yang menjanjikan di lapangan. Survei ini, oleh karena itu, berfungsi sebagai sumber yang berharga bagi siapa pun yang berinvestasi dalam memahami dan memajukan penyelarasan LLMS agar lebih sesuai dengan tugas dan harapan yang berorientasi pada manusia.
Kami berharap repositori ini dapat membantu para peneliti dan praktisi untuk mendapatkan pemahaman yang lebih baik tentang bidang yang muncul ini. Jika repositori ini bermanfaat untuk Anda, tolong bantu kami dengan mengutip makalah ini:
@article{aligning_llm_human,
title={Aligning Large Language Models with Human: A Survey},
author={Yufei Wang and Wanjun Zhong and Liangyou Li and Fei Mi and Xingshan Zeng and Wenyong Huang and Lifeng Shang and Xin Jiang and Qun Liu},
journal={arXiv preprint arXiv:2307.12966},
year={2023}
}Berita
? Proyek ini sedang dikembangkan. Anda dapat mencapai bintang dan menonton untuk mengikuti pembaruan.
- 2023/07/31: Makalah survei kami dimasukkan ke dalam [podcast @ papersread.ai]
- 2023/07/25: Makalah survei awal kami menyelaraskan model bahasa besar dengan manusia: survei tersedia.
Daftar isi
- Berita
- Awesome-aligning-llm-human
- Survei Terkait
- Data Alignment
- Data dari manusia
- Data dari LLM yang kuat
- Manajemen instruksi
- Pelatihan Alignment
- Penyelarasan manusia online
- Penyelarasan manusia offline
- Pelatihan parameter-efisien
- Evaluasi Alignment
- Prinsip Desain Evaluasi
- Tolok ukur evaluasi
- Paradigma evaluasi
- Toolkit Alignment
Survei Terkait
- Survei model bahasa besar [kertas]
- Survei tentang Model Bahasa Multimodal Besar [Kertas]
- Survei tentang Evaluasi Model Bahasa Besar [Kertas]
- Tantangan dan aplikasi model bahasa besar [kertas]
- Memanfaatkan Kekuatan LLM dalam Praktek: Survei tentang Chatgpt dan Beyond [Paper]
- Spesialisasi domain sebagai kunci untuk membuat model bahasa besar mengganggu: survei komprehensif [kertas]
- Survei Keselamatan dan Kepercayaan Model Bahasa Besar Melalui Lensa Verifikasi dan Validasi [Kertas]
- Menyatulah model bahasa besar dan grafik pengetahuan: peta jalan [kertas]
- Pembelajaran alat dengan model yayasan [kertas]
- Delapan hal yang perlu diketahui tentang model bahasa besar [kertas]
- Masalah terbuka dan keterbatasan mendasar dari pembelajaran penguatan dari umpan balik manusia [kertas]
- Tinjauan Panggung Tuning Instruksi [Blog]
Data Alignment
Data dari manusia
Tolok ukur NLP
- Sumber Prompts: Lingkungan Pengembangan Terpadu dan Repositori untuk Bahasa Alami Meminta [Kertas]
- Super-natural Instruksi: Generalisasi melalui instruksi deklaratif pada 1600+ tugas NLP [kertas]
- Koleksi Flan: Merancang data dan metode untuk penyetelan instruksi yang efektif [kertas]
- Dataset OIG [Blog]
- CHATPLUG: Sistem Dialog Generatif Domain Terbuka dengan Tuning Instruksi Penghargaan-Uang untuk Manusia Digital [Kertas]
- Penyelarasan teks adalah model terpadu yang efisien untuk tugas NLP besar -besaran [kertas]
- OPT-IML: Instruksi Model Bahasa Skala Meta Pembelajaran Melalui Lensa Generalisasi [Kertas]
- Instruct-Fingpt: Analisis sentimen keuangan dengan penyetelan instruksi model bahasa besar tujuan umum [kertas]
Pengetahuan Domain
- Mempelajari Model Bahasa Yayasan untuk Pemahaman Pengetahuan Geosains dan Pemanfaatan [Kertas]
- Laporan Teknis Pengacara Llama [Makalah]
- HUatuo: Tuning Llama Model dengan Pengetahuan Medis Tiongkok [Kertas]
- PMC-llama: Llama lebih lanjut di atas kertas medis [kertas]
- Parameter-efisien fine-tuning llama untuk domain klinis [kertas]
Instruksi kerajinan tangan
- Gratis Dolly: Memperkenalkan LLM [Blog] yang benar-benar terbuka di dunia yang benar-benar terbuka di dunia
- Percakapan OpenAssistant - Mendemokratisasi Penyelarasan Model Bahasa Besar [Kertas]
- Generalis Instruksi Terbuka Cina: Rilis Pendahuluan [Kertas]
- Sharegpt [Blog]
- Mari kita verifikasi langkah demi langkah [kertas]
- Beavertails: Menuju Peningkatan Keselamatan Keselamatan LLM melalui Dataset Preferensi Manusia [Kertas]
- Pentingnya data berlabel manusia di era LLMS [kertas]
Data preferensi manusia
- Model bahasa pelatihan untuk mengikuti instruksi dengan umpan balik manusia [kertas]
- Meningkatkan penyelarasan agen dialog melalui penilaian manusia yang ditargetkan [kertas]
- Model bahasa yang menyempurnakan dari preferensi manusia [kertas]
- Mengajar Model Bahasa untuk Mendukung Jawaban Dengan Kutipan Terverifikasi [Kertas]
- WebGPT: Permintaan pertanyaan yang dibantu oleh browser dengan umpan balik manusia [kertas]
Data dari LLM yang kuat
Instruksi umum
Meningkatkan kualitas input
- Mandiri: Menyelaraskan model bahasa dengan instruksi yang dihasilkan sendiri [kertas]
- Lamini-LM: Kawanan beragam model suling dari instruksi skala besar [kertas]
- Baize: Model obrolan sumber terbuka dengan penyetelan parameter-efisien pada data self-chat [kertas]
- Model Bahasa Besar Sebagai Generator Data Pelatihan yang Dikaitkan: Kisah Keragaman dan Bias [Kertas]
- Wizardlm: Memberdayakan Model Bahasa Besar Untuk Mengikuti Instruksi Kompleks [Kertas]
- Instruksi yang tidak wajar: Tuning model bahasa dengan (hampir) tidak ada tenaga kerja manusia [kertas]
- Dynosaur: Paradigma Pertumbuhan Dinamis untuk Kurasi Data Penyetelan Instruksi [Kertas]
- Menjelajahi konsistensi format untuk penyetelan instruksi [kertas]
Meningkatkan kualitas output
- Rantai-pemikiran yang mendorong memunculkan penalaran dalam model bahasa besar [kertas]
- ORCA: Pembelajaran Progresif dari Jejak Penjelasan Kompleks GPT-4 [Kertas]
- Singa: Distilasi permusuhan dari model bahasa besar sumber tertutup [kertas]
- Penyelarasan diri yang didorong oleh prinsip model bahasa dari awal dengan pengawasan manusia minimal [kertas]
- PROMPROMPTING: Menginstruksikan model bahasa besar untuk menjadi ahli [kertas] yang dibedakan
- Phoenix: Demokratisasi chatgpt lintas bahasa [kertas]
- Meningkatkan generalisasi silang dengan instruksi langkah demi langkah [kertas]
- Koleksi COT: Meningkatkan pembelajaran zero-shot dan beberapa-shot dari model bahasa melalui rantai-pemikiran fine-tuning [kertas]
Instruksi penalaran
Penalaran Umum
- Mengkhususkan model bahasa yang lebih kecil menuju penalaran multi-langkah [kertas]
- Menyaring langkah demi langkah! Mengungguli model bahasa yang lebih besar dengan data pelatihan yang lebih sedikit dan ukuran model yang lebih kecil [kertas]
- Penyulingan penalaran yang beragama untuk model bahasa kecil dalam tugas-tugas intensif pengetahuan [kertas]
- PAD: Distilasi berbantuan program mengkhususkan model besar dalam penalaran [kertas]
Kode
- Buku teks adalah semua yang Anda butuhkan [kertas]
- WizardCoder: Model Pemberdayaan Model Bahasa Besar dengan Evol-Instruksi [Kertas]
- Kode Alpaca: Model LLAMA yang mengikuti instruksi untuk pembuatan kode [GitHub]
- CODET5+: Kode terbuka model bahasa besar untuk pemahaman dan pembuatan kode [kertas]
- Pangu-coder2: meningkatkan model bahasa besar untuk kode dengan peringkat umpan balik [kertas]
Matematika
- Mint: Meningkatkan generalisasi dalam penalaran matematika melalui fine-tuning multi-view [kertas]
- Kambing: Llama yang disempurnakan mengungguli GPT-4 pada tugas aritmatika [kertas]
- Hubungan penskalaan tentang belajar penalaran matematika dengan model bahasa besar [kertas]
Instruksi percakapan
- Vicuna: Open-Source Chatbot yang mengesankan GPT-4 dengan 90%* CHATGPT KUALITAS [Blog]
- Baize: Model obrolan sumber terbuka dengan penyetelan parameter-efisien pada data self-chat [kertas]
- Meningkatkan model bahasa obrolan dengan menskalakan percakapan instruksional berkualitas tinggi [kertas]
- Unta: Agen Komunikatif untuk Eksplorasi "Pikiran" Masyarakat Model Bahasa Skala Besar [Kertas]
- Selfee: LLM yang menilai sendiri yang berulang diberdayakan oleh Generasi Self-Feedback [Blog]
- Pipa pembuatan data yang efektif untuk menghasilkan data instruksi keuangan berkualitas tinggi untuk model bahasa besar [kertas]
Instruksi multibahasa
- Phoenix: Demokratisasi chatgpt lintas bahasa [kertas]
- Bayling: Menjembatani perataan dan instruksi lintas-bahasa yang mengikuti melalui terjemahan interaktif untuk model bahasa besar [kertas]
- Bactrian-X: Model pengikut instruksi multibahasa yang dapat ditiru dengan adaptasi rendah [kertas]
- Instruct-Align: Mengajar Bahasa Novel Dengan ke LLMS Melalui Instruksi Cross-Lingual Berbasis Penyelarasan [Kertas]
Manajemen instruksi
Implikasi instruksi
- Seberapa jauh unta bisa? Menjelajahi keadaan penyetelan instruksi pada sumber daya terbuka [kertas]
- Flacuna: Melepaskan Kekuatan Pemecahan Masalah Vicuna Menggunakan Final Fine-Tuning [Kertas]
- SKALING DATA MODEL BAHASA DATA [Kertas]
- Menuju instruksi yang lebih baik mengikuti model bahasa untuk bahasa Cina: menyelidiki dampak data pelatihan dan evaluasi [kertas]
- Janji palsu meniru LLMS Proprietary [kertas]
- Keterbatasan dasar penyelarasan dalam model bahasa besar [kertas]
Jumlah instruksi
- Menjadi Instruktur Diri: Memperkenalkan Kriteria Penghentian Dini untuk Penyetelan Instruksi Minimal [Kertas]
- Lima: Less lebih banyak untuk Alignment [Paper]
- Penambangan Instruksi: Pemilihan data instruksi berkualitas tinggi untuk model bahasa besar [kertas]
- Alpagasus: Melatih alpaca yang lebih baik dengan lebih sedikit data [kertas]
- Mungkin hanya data 0,5% yang diperlukan: eksplorasi awal penyetelan instruksi data pelatihan rendah [kertas]
Pelatihan Alignment
Penyelarasan manusia online
- Model bahasa pelatihan untuk mengikuti instruksi dengan umpan balik manusia [kertas]
- RAFT: Hadiah Peringkat Finetuning untuk Alignment Model Yayasan Generatif [Kertas]
- AI Konstitusi: tidak berbahaya dari umpan balik AI [[kertas]] (AI Konstitusi: tidak berbahaya dari umpan balik AI)
- RLCD: Pembelajaran Penguatan dari Distilasi Kontras untuk Alignment Model Bahasa [Kertas]
Penyelarasan manusia offline
Pelatihan berbasis pangkat
- Optimalisasi Preferensi Langsung: Model bahasa Anda secara diam -diam adalah model hadiah [kertas]
- Optimalisasi peringkat preferensi untuk penyelarasan manusia [kertas]
- RRHF: Peringkat Responses to Align Bahasa Model dengan Umpan Balik Manusia Tanpa Air Mata [Kertas]
- Pangu-coder2: meningkatkan model bahasa besar untuk kode dengan peringkat umpan balik [kertas]
- Kemungkinan urutan kalibrasi meningkatkan generasi bahasa bersyarat [kertas]
- Membuat model bahasa besar yang lebih baik dengan penalaran dengan alignment [kertas]
Pelatihan berbasis bahasa
- OpenChat: Lebih sedikit lebih banyak untuk model open-source [GitHub]
- Bahasa adalah Hadiah: Hindsight Finetuning Menggunakan Umpan Balik Manusia [Kertas]
- Pikiran Kedua adalah yang terbaik: Belajar menyelaraskan kembali dengan nilai-nilai kemanusiaan dari pengeditan teks [kertas]
- Pelatihan Model Bahasa yang Selaras Sosial dalam Simulasi Masyarakat Manusia [Kertas]
- Selfee: LLM yang menilai sendiri yang berulang diberdayakan oleh Generasi Self-Feedback [Blog]
- Umpan balik manusia berbutir halus memberikan hadiah yang lebih baik untuk pelatihan model bahasa [kertas]
Pelatihan parameter-efisien
- Lora: Adaptasi rendah dari model bahasa besar [kertas]
- Qlora: Finetuning yang efisien dari LLMS terkuantisasi [kertas]
- Tuning awalan: Mengoptimalkan permintaan kontinu untuk generasi [kertas]
- Kekuatan skala untuk penyetelan cepat parameter-efisien [kertas]
- Alokasi anggaran adaptif untuk penyempurnaan yang efisien parameter [kertas]
- Ruang Desain Fine-Tuning Parameter-Efisien [kertas]
- Petunjuk: Tuning Instruksi Hypernetwork untuk generalisasi nol-& beberapa-shot yang efisien [kertas]
Desain Arsitektur Model
- Campuran Ekspertion Memenuhi Penyetelan Instruksi: Kombinasi yang menang untuk model bahasa besar [kertas]
- Lamini-LM: Kawanan beragam model suling dari instruksi skala besar [kertas]
Evaluasi Alignment
Prinsip Desain Evaluasi
- Percikan Kecerdasan Umum Buatan: Eksperimen Awal dengan GPT-4 [Kertas]
- Mengukur kemampuan kognitif LLMS secara efisien: perspektif pengujian adaptif [kertas]
- Evaluasi Holistik Model Bahasa [Kertas]
Tolok ukur evaluasi
Tolok ukur tertutup
Pengetahuan Umum
- Mengukur pemahaman bahasa multitask besar [kertas]
- CMMLU: Mengukur pemahaman bahasa multitask besar dalam [kertas] Cina]
- C-eval: Suite evaluasi Cina multi-disiplin multi-level untuk model yayasan [kertas]
- Kola: Pengetahuan Dunia Benchmarking Hati -hati tentang Model Bahasa Besar [Kertas]
- M3KE: Benchmark evaluasi pengetahuan multi-subjek multi-level besar untuk model bahasa besar Cina [kertas]
- Agieval: Benchmark yang berpusat pada manusia untuk mengevaluasi model yayasan [kertas]
- Mengukur Multitask Multitask Paheat [Makalah]
- Xiezhi: Benchmark yang selalu memperbarui untuk evaluasi pengetahuan domain holistik [kertas]
- Tablet: Belajar dari Instruksi untuk Data Tabular [Kertas]
- Bisakah model bahasa memahami konsep fisik? [Kertas]
Pemikiran
- Pelatihan verifikasi untuk menyelesaikan masalah kata matematika [kertas]
- Mengukur pemahaman bahasa multitask besar [kertas]
- Commonsenseqa: Sebuah pertanyaan yang menjawab tantangan yang menargetkan pengetahuan [kertas]
- Apakah Aristoteles menggunakan laptop? Sebuah pertanyaan yang menjawab tolok ukur dengan strategi penalaran implisit [kertas]
- Rantai-pemikiran yang mendorong memunculkan penalaran dalam model bahasa besar [kertas]
- Menantang tugas-tugas besar dan apakah rantai-pemikiran dapat menyelesaikannya [kertas]
- Sintesis program dengan model bahasa besar [kertas]
- DS-1000: tolok ukur alami dan andal untuk pembuatan kode sains data [kertas]
- Mengevaluasi model bahasa besar yang dilatih pada kode [kertas]
- Apakah kode Anda dihasilkan oleh chatgpt benar -benar benar? Evaluasi yang ketat dari model bahasa besar untuk pembuatan kode [kertas]
- RepoBench: Benchmarking Code Level Level Auto-Completion Systems [Paper]
- Classeval: Benchmark yang dibuat secara manual untuk mengevaluasi LLM pada pembuatan kode tingkat kelas [kertas]
- Studenteval: Benchmark student yang dituliskan untuk model kode bahasa besar [kertas]
Tolok ukur terbuka
Obrolan Umum
- Vicuna: Open-Source Chatbot yang mengesankan GPT-4 dengan 90%* CHATGPT KUALITAS [Blog]
- Mandiri: Menyelaraskan model bahasa dengan instruksi yang dihasilkan sendiri [kertas]
- Percakapan OpenAssistant - Mendemokratisasi Penyelarasan Model Bahasa Besar [Kertas]
- Flask: Evaluasi model bahasa berbutir halus berdasarkan set keterampilan penyelarasan [kertas]
- Menilai LLM-AS-A-Hakim dengan Mt-Bench dan Chatbot Arena [kertas]
- Alpacafarm: Kerangka kerja simulasi untuk metode yang belajar dari umpan balik manusia [kertas]
Keamanan
- Penilaian Keselamatan Model Bahasa Besar Cina [Kertas]
- CVALUES: Mengukur nilai -nilai model bahasa besar Cina dari keamanan hingga tanggung jawab [kertas]
- Latent Jailbreak: Benchmark untuk Mengevaluasi Keamanan Teks dan Ketahanan Output Model Bahasa Besar [Kertas]
- TrustGpt: Benchmark untuk model bahasa besar yang dapat dipercaya dan bertanggung jawab [kertas]
Konteks panjang
- L-Eval: Melembagakan Evaluasi Standar untuk Model Bahasa Konteks Panjang [Kertas]
Paradigma evaluasi
Evaluasi berbasis manusia
- Mandiri: Menyelaraskan model bahasa dengan instruksi yang dihasilkan sendiri [kertas]
- Lamini-LM: Kawanan beragam model suling dari instruksi skala besar [kertas]
- Model bahasa pelatihan untuk mengikuti instruksi dengan umpan balik manusia [kertas]
- Menilai LLM-AS-A-Hakim dengan Mt-Bench dan Chatbot Arena [kertas]
Evaluasi berbasis LLMS
LLMS untuk evaluasi
- G-Eval: Evaluasi NLG Menggunakan GPT-4 dengan Alignment Manusia yang Lebih Baik [Kertas]
- GPTSCORE: Evaluasi sesuai keinginan Anda [kertas]
- Menjelajahi penggunaan model bahasa besar untuk evaluasi kualitas teks bebas referensi: studi empiris awal [kertas]
- Bisakah model bahasa besar menjadi alternatif untuk evaluasi manusia? [Kertas]
- FactScore: Evaluasi atom berbutir halus dari presisi faktual dalam pembuatan teks bentuk panjang [kertas]
- AlignScore: Mengevaluasi konsistensi faktual dengan fungsi perataan terpadu [kertas]
- Analisis kesalahan yang diminta memungkinkan evaluasi terjemahan seperti manusia dalam model bahasa besar: studi kasus di chatgpt [kertas]
- Evaluasi ringkasan seperti manusia dengan chatgpt [kertas]
- Model bahasa besar adalah evaluator canggih dari pembuatan kode [kertas]
- Model Yayasan Benchmarking dengan Model Bahasa-AS-An-Examiner [Kertas]
- LLM-EVAL: Evaluasi otomatis multi-dimensi terpadu untuk percakapan domain terbuka dengan model bahasa besar [kertas]
- LLMS sebagai alasan faktual: wawasan dari tolok ukur yang ada dan di luar [kertas]
Bias LLMS dalam evaluasi
- Model bahasa besar bukanlah evaluator yang adil [kertas]
- Gaya over Substance: Evaluasi Bias untuk Model Bahasa Besar [Kertas]
- Menilai LLM-AS-A-Hakim dengan Mt-Bench dan Chatbot Arena [kertas]
LLMS khusus evaluasi
- Pandalm: Benchmark evaluasi otomatis untuk pengoptimalan penyetelan instruksi LLM [kertas]
- Jaringan LLM yang lebih luas dan lebih dalam adalah evaluator LLM yang lebih adil [kertas]
- Shepherd: Seorang kritikus untuk generasi model bahasa [kertas]
Toolkit Alignment
- Llama v1 & v2 [github] [kertas v1] [kertas v2]
- Llama-X: Open Academic Research tentang peningkatan Llama ke Sota LLM [GitHub]
- Llama2-Chinese [GitHub]
- Colossal-Ai: Membuat model AI besar lebih murah, lebih cepat, dan lebih mudah diakses. [GitHub]
- Melatih dan melayani jaringan saraf skala besar dengan paralelisasi otomatis. [GitHub]
- Fastchat [GitHub]
- Lmflow [github]
- LLAMA2-Accessory: Toolkit Sumber Terbuka untuk Pengembangan LLM [GitHub]