Dataset preferensi manusia yang luar biasa untuk LLM? ❤️?
Daftar Dataset Preferensi Manusia Sumber Terbuka untuk LLM Instruction-Tuning, RLHF dan Evaluasi.
Untuk kumpulan data NLP umum dan teks korpora, lihat daftar yang luar biasa ini.
Kumpulan data
Perbandingan Webgpt OpenAI
- Perbandingan 20K di mana setiap contoh terdiri dari sebuah pertanyaan, sepasang jawaban model, dan skor preferensi peringkat manusia untuk setiap jawaban.
- Dataset RLHF yang digunakan untuk melatih model hadiah OpenAI WebGPT.
Ringkasan Openai
- Contoh peringkasan teks 64K termasuk respons yang ditulis manusia dan respons model peringkat manusia.
- Dataset RLHF yang digunakan dalam pembelajaran Openai untuk meringkas dari kertas umpan balik manusia.
- Jelajahi data sampel di sini.
Dataset Bantuan Antropik dan Kerusakan (HH-RLHF)
- Secara total 170K perbandingan preferensi manusia, termasuk data preferensi manusia yang dikumpulkan untuk melatih asisten yang membantu dan tidak berbahaya dengan pembelajaran penguatan dari umpan balik manusia dan data tim merah yang dihasilkan manusia dari model bahasa tim merah untuk mengurangi bahaya, dibagi menjadi 3 sub-data:
- Dataset dasar menggunakan model 52B yang tersulap konteks, dengan perbandingan bantuan 44K dan perbandingan tim merah 42k (tidak berbahaya).
- Dataset RS dari 52K perbandingan bantuan dan perbandingan tim merah 2K menggunakan model pengambilan sampel penolakan, di mana pengambilan sampel penolakan menggunakan model preferensi yang dilatih pada dataset dasar.
- Dataset online berulang termasuk data dari model RLHF, diperbarui setiap minggu selama lima minggu, dengan 22k perbandingan bantuan.
Dataset Percakapan OpenAssistant (OASST1)
- Corpus percakapan asisten yang dihasilkan manusia dan beranotasi manusia yang terdiri dari 161k pesan dalam 35 bahasa, dijelaskan dengan peringkat kualitas 461K, menghasilkan pohon percakapan 10k+ yang sepenuhnya beranotasi.
Stanford Human Preferensi Dataset (SHP)
- 385K preferensi manusia kolektif atas tanggapan terhadap pertanyaan/instruksi di 18 domain untuk melatih model hadiah RLHF dan model evaluasi NLG. Dataset yang dikumpulkan dari Reddit.
Reddit Eli5
- 270k contoh pertanyaan, jawaban dan skor yang dikumpulkan dari 3 subreddits T&J.
Human Chatgpt Comparison Corpus (HC3)
- 60K Jawaban Manusia dan 27k Chatgpt Jawaban untuk sekitar 24k pertanyaan.
- Dataset saudara kandung tersedia untuk bahasa Cina.
Huggingface H4 Dataset Preferensi StackExchange
- 10 juta pertanyaan (dengan> = 2 jawaban) dan jawaban (dinilai berdasarkan jumlah suara) dari StackOverflow.
Sharegpt.com
- 90k (per April 2023) Interaksi chatgpt yang diekspload pengguna.
Untuk mengakses data menggunakan API Sharegpt, lihat dokumentasi di sini API Sharegpt saat ini dinonaktifkan ("Karena kelebihan lalu lintas").- Dataset yang dipadukan di Huggingface.
Alpaca
- Instruksi dan demonstrasi 52k yang dihasilkan oleh mesin Text-davinci-003 Openai untuk pelatihan mandiri .
Gpt4all
- Pasangan respons prompt 1m dikumpulkan menggunakan API GPT-3.5-Turbo pada bulan Maret 2023. Repo GitHub.
Databricks Dolly Dataset
- 15K Catatan mengikuti instruksi yang dihasilkan oleh karyawan databricks dalam kategori termasuk brainstorming, klasifikasi, QA tertutup, generasi, ekstraksi informasi, QA terbuka, dan peringkasan.
Hh_golden
- 42k data yang tidak berbahaya, permintaan yang sama dan respons "ditolak" sebagai dataset yang tidak berbahaya dalam dataset HH antropik, tetapi tanggapan dalam respons "dipilih" ditulis ulang menggunakan GPT4 untuk menghasilkan jawaban yang lebih tidak berbahaya. Perbandingan sebelum dan sesudah ditulis ulang dapat ditemukan di sini. Secara empiris, dibandingkan dengan dataset asli yang tidak berbahaya, pelatihan tentang dataset ini meningkatkan metrik yang tidak berbahaya untuk berbagai metode penyelarasan seperti RLHF dan DPO.