Dataset yang mengagumkan/visual-instruksi-tuning
Kumpulan dataset penyetelan instruksi open-source untuk melatih LLM berbasis obrolan (teks dan multi-modal) (GPT-4, ChatGPT, Llama, Alpaca). Kami saat ini menyertakan tiga jenis dataset:
- Visual-instruksi-tuning (mis.
- Dataset Teks-Instruksi-Menyetel.
- tim merah | Penguatan Penguatan dari Dataset Umpan Balik Manusia (RLHF)
Instruksi Tuning / Penguatan Pembelajaran dari Dataset Human Feedback (RLHF) adalah komponen kunci dari LLM yang mengikuti instruksi seperti chatgpt. Repo ini didedikasikan untuk menyediakan daftar setara dataset yang digunakan untuk penyetelan instruksi di berbagai LLM, memudahkan para peneliti dan pengembang untuk mengakses dan memanfaatkan sumber daya ini.
Daftar Codebse untuk melatih LLMS Anda:
- Nichtdax/Awesome-Totally-Open-ChatGPT: Basis kode alternatif yang benar-benar terbuka untuk chatgpt
Ukuran: jumlah pasangan penyetelan instruksi
Lingual-tag:
- EN: Dataset Instruksi dalam Bahasa Inggris
- CN: Dataset instruksi dalam bahasa Cina
- ML: [multi-lingual] Dataset instruksi dalam berbagai bahasa
TUGAS TUGAS:
- Dataset MT: [multi-tugas] yang berisi banyak tugas
- TS: [khusus tugas] Dataset yang disesuaikan untuk tugas-tugas tertentu
Metode generasi:
- HG: [dataset yang dihasilkan manusia] Dataset yang dibuat oleh manusia
- SI: [Dataset sendiri] Dataset yang dihasilkan menggunakan metode mandiri
- Campuran: Dataset [Mixed Dataset] berisi data yang dihasilkan manusia dan mesin
- COL: [kumpulan dataset] Dataset yang dibuat dari kumpulan set data lainnya
Daftar isi
- Template
- Dataset instruksi multi-modal
- (Visi-Cair/Minigpt-4) | 5k | en | Mt | Mix
- (Haotian-Liu/llava) | 150k | en | mt | mix
- Dataset penyetelan instruksi
- (Tatsu-lab/alpaca) | 52k | en | mt | si
- (Beranda/dibersihkan alpaca) | 52k | en | mt | si
- (Xuefuzhao/instruksionwild) | 52k | en | cn | mt | si
- (Josephuscheung/guanacodataset) | 534k | Ml | Mt | Si
- (Hello-simpleai/hc3) | 24k | en | mt | mix
- (Hello-Simpleai/HC3-Chinese) | 13K | CN | MT | Mix
- (Allenai/Prososial-Dialog) | 58K | en | Mt | Mix
- (Allenai/Natural-Instruksi) | 1.6K | Ml | Mt | Hg
- (BigScience/xp3) | n/a | ml | mt | campuran
- (Nomic-ai/gpt4all) | 437k | en | Mt | col
- (Phoebussi/alpaca-cot) | 500k | ml | mt | col
- (Google-Research/Flan) | n/a | en | mt | mix
- (thunlp/ultrachat) | 280k | en | ts | campuran
- (cascip/chatalpaca) | 10k | en | mt | mix
- (Yeungnlp/firefly-train-1.1m) | 1100k | cn | mt | col
- (Orhonovich/Instruksi tidak alami) | 240k | en | mt | campuran
- (Instruksi-tuning-dengan-gpt-4/gpt-4-llm) | 52k | en | cn | mt | si
- (databrickslabs/dolly) | 15k | en | mt | hg
- (OpenAssistant/oasst1) | 161k | ml | mt | hg
- (Ryokoai/sharegpt52k) | 90k | ml | mt | si
- (zjunlp/mol-instruksi) | 2043k | ml | mt | campuran
- Penguatan Penguatan dari Dataset Umpan Balik Manusia (RLHF)
- (Antropik/HH-rlhf) | 22k | en | mt | mix
- (Thu-Coai/Prompts Keselamatan) | 100K | CN | MT | Campuran
- (HuggingfaceH4/Stack-Exchange-Preferences) | 10741k | en | ts | hg
- (stanfordnlp/shp) | 385k | en | mt | hg
- (Instruksi-tuning-dengan-gpt-4/gpt-4-llm) | 52k | en | mt | mix
- Lisensi yang memungkinkan penggunaan komersial
Template
Tambahkan proyek baru di akhir file
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable) Dataset Instruksi Multi-Modal
(Visi-Cair/Minigpt-4) | 5k | en | Mt | Mix
- Ringkasan: Dataset teks-gambar berkualitas tinggi, selaras (misalnya lebih rinci) dibuat-buat yang dibuat menggunakan percakapan antara dua bot, mirip dengan chatcaptioner. Dataset teks-teks ini kemudian dapat digunakan dengan beberapa template instruksi yang telah ditentukan untuk finetuning answer-instruksi-gambar.
- Modalitas: Teks, gambar
- Model pembuatan data: N/A
- Kertas: Minigpt-4: Meningkatkan pemahaman bahasa penglihatan dengan model bahasa besar canggih
- Lisensi:
BSD 3-Clause - Terkait:
- Chatcaptioner interaktif untuk gambar dan video
(Haotian-Liu/llava) | 150k | en | mt | mix
- Ringkasan: Instruksi Visual LLAVA 150K adalah satu set data pengikut instruksi multimodal yang dihasilkan GPT. Ini dibangun untuk penyetelan instruksi visual dan untuk membangun multimodal besar menuju kemampuan penglihatan/bahasa GPT-4.
- Modalitas: Teks, gambar
- Model pembuatan data:
GPT-4-0314 - kertas: penyetelan instruksi visual
- Lisensi:
CC BY-NC 4.0
[({sunrainyg}/{Instruktur) | en | mt | mix}] {https://github.com/alaalab/instructcv}
- Ringkasan: Model difusi teks-ke-gambar yang disesuaikan dengan instruksi sebagai generalis visi
- Modalitas: Teks, gambar
- Kertas: Instruktur
- Lisensi:
CC BY-NC 4.0
Dataset mengikuti instruksi
(Tatsu-lab/alpaca) | 52k | en | mt | si
- Ringkasan: Data
52K yang dihasilkan dari pipa self-instruct yang dimodifikasi dengan 175 seed task yang ditulis manusia. - Model Pembuatan Data:
text-davinci-003 - Kertas: Alpaca-Blog
- Lisensi:
CC BY-NC 4.0
(Beranda/dibersihkan alpaca) | 52k | en | mt | si
- Ringkasan: Proyek yang secara manual membersihkan dataset alpaca 52k
- Model Pembuatan Data:
text-davinci-003 - Kertas: N/A.
- Lisensi:
CC BY-NC 4.0
(Xuefuzhao/instruksionwild) | 52k | en | cn | mt | si
- Ringkasan: Data
52K yang dihasilkan dari pipa self-instruct yang dimodifikasi dengan 429 seed task yang ditulis manusia. - Model Pembuatan Data:
text-davinci-003 - Kertas: N/A.
- Lisensi: Dataset Instruktur dimaksudkan hanya untuk tujuan penelitian non-komersial.
(Josephuscheung/guanacodataset) | 534k | Ml | Mt | Si
- Ringkasan: Data Instruksi
52K yang dihasilkan dari pipa self-instruct yang dimodifikasi dengan 429 seed task yang ditulis manusia. - Model Pembuatan Data:
text-davinci-003 - Lisensi:
GPL-3.0
(Hello-simpleai/hc3) | 24k | en | mt | mix
- Ringkasan: The First Human-Chatgpt Comparison Corpus (Versi Bahasa Inggris), bernama HC3 Dataset
- Model pembuatan data:
gpt-3.5 , human generated - Kertas: Seberapa dekat chatgpt dengan pakar manusia? Perbandingan korpus, evaluasi, dan deteksi
- Lisensi:
CC BY-SA 4.0
(Hello-Simpleai/HC3-Chinese) | 13K | CN | MT | Mix
- Ringkasan: The First Human-Chatgpt Comparison Corpus (Versi Cina), bernama HC3 Dataset
- Model pembuatan data:
gpt-3.5 , human generated - Kertas: Seberapa dekat chatgpt dengan pakar manusia? Perbandingan korpus, evaluasi, dan deteksi
- Lisensi:
CC BY-SA 4.0
(Allenai/Prososial-Dialog) | 58K | en | Mt | Mix
- Ringkasan: ProsocialDialog adalah dataset dialog bahasa Inggris multi-turn skala besar pertama untuk mengajar agen percakapan untuk menanggapi konten yang bermasalah mengikuti norma-norma sosial.
- Model pembuatan data:
gpt-3.5 , human generated - Kertas: Prosocialdialog: Tulang punggung prososial untuk agen percakapan
- Lisensi:
CC BY 4.0
(Allenai/Natural-Instruksi) | 1.6K | Ml | Mt | Hg
- Ringkasan: Upaya komunitas untuk membuat koleksi besar
1,616 diverse NLP tasks dan definisi/instruksi bahasa alami mereka. - Model pembuatan data:
Human generated - Kertas: Super-Natural Instruksi: Generalisasi Melalui Instruksi Deklaratif pada 1600+ Tugas NLP
- Lisensi:
Apache License 2.0
(BigScience/xp3) | n/a | ml | mt | campuran
- Ringkasan: [Prompt-Resource] XP3 (Pool Publik Crosslingual Prompts) adalah kumpulan prompt & dataset di 46 bahasa & 16 tugas NLP.
- Model pembuatan data: N/A
- Kertas: Generalisasi crosslingual melalui finetuning multitask
- Lisensi:
Apache License 2.0
(Phoebussi/alpaca-cot) | 500k | ml | mt | col
- Ringkasan: Datset untuk penalaran rantai-dipikirkan berdasarkan Llama dan Alpaca. Catatan: Repositori mereka akan terus mengumpulkan dan menggabungkan berbagai set data tuning instruksi. Repo github
- Kertas: N/A.
- Lisensi:
Apache License 2.0
(Nomic-ai/gpt4all) | 437k | en | Mt | col
- Ringkasan: GPT4Alall memanfaatkan tiga dataset yang tersedia untuk umum: 1.laion/oig, 2.pacovaldez/stackoverflow-pertanyaan 3. Subset BigScience/Bloomz-P3
- Model pembuatan data: N/A
- Kertas: GPT4All: Melatih chatbot asisten dengan distilasi data skala besar dari GPT-3.5-turbo
- Lisensi:
MIT License
(Teknium1/gpteacher) | 20k+| en | Mt | si
- Ringkasan: Kumpulan dataset modular yang dihasilkan oleh GPT-4, General-Instruct-Roleplay-instruct-Code-instruct-and ToolFormer
- Model pembuatan data:
GPT-4 - Kertas: N/A.
- Lisensi:
MIT License
(Google-Research/Flan) | n/a | en | mt | mix
- Ringkasan: Koleksi Flan mengkompilasi kumpulan data dari Flan 2021, P3, instruksi super alami, bersama dengan lusinan lebih banyak kumpulan data ke satu tempat, memformatnya menjadi campuran templat zero-shot, beberapa shot dan rantai-dipikirkan rantai
- Model pembuatan data: N/A
- Kertas: Pengumpulan Flan: Merancang Data dan Metode untuk Penyetelan Instruksi yang Efektif
- Lisensi:
Apache License 2.0
(thunlp/ultrachat) | 280k | en | ts | campuran
- Ringkasan: Ultrachat bertujuan untuk membangun data dialog open-source, skala besar, dan multi-putaran. Bagian pertama dari Ultrachat (yaitu, pertanyaan tentang sektor dunia) dirilis, yang berisi 280 ribu dialog yang beragam dan informatif. Lebih banyak dialog tentang penulisan dan penciptaan, bantuan pada materi yang ada akan datang.
- Model pembuatan data:
GPT-3.5-turbo - Kertas: N/A.
- Lisensi:
CC BY-NC 4.0
(cascip/chatalpaca) | 10k | en | mt | mix
- Ringkasan: Berdasarkan data Stanford ALPACA, Chatalpaca memperluas data ke instruksi multi-putar dan tanggapan yang sesuai. Lebih banyak data (20k) dan versi yang diterjemahkan oleh orang Cina akan datang.
- Model pembuatan data:
GPT-3.5-turbo - Kertas: N/A.
- Lisensi:
Apache License 2.0 - Terkait: (Tatsu-Lab/Alpaca) | 52k | en | Mt | si
(Yeungnlp/firefly-train-1.1m) | 1100k | cn | mt | col
- Ringkasan: Dataset Cina dari 23 tugas yang dikombinasikan dengan templat instruksi yang ditulis manusia.
- Model pembuatan data: N/A
- Kertas: N/A.
- Lisensi: N/A.
(Orhonovich/Instruksi tidak alami) | 240k | en | mt | campuran
- Ringkasan: 64K Contoh dengan mendorong model bahasa dengan tiga contoh unggulan instruksi dan memunculkan yang keempat. Kemudian set diperluas ke 240K dengan meminta model untuk mengulangi setiap instruksi.
- Model Pembuatan Data:
text-davinci-002 - Kertas: Instruksi yang tidak wajar: Model bahasa tuning dengan (hampir) tidak ada tenaga manusia
- Lisensi:
MIT License
(Instruksi-tuning-dengan-gpt-4/gpt-4-llm) | 52k | en | cn | mt | si
- Ringkasan: 52k data pengikut instruksi yang dihasilkan oleh GPT-4 dengan prompt alpaca asli & prompt alpaca diterjemahkan ke dalam bahasa Cina oleh data chatgpt + 9k pengikut instruksi yang dihasilkan oleh GPT-4 dengan petunjuk dalam instruksi yang tidak wajar.
- Model pembuatan data:
GPT-4 - Kertas: Penyetelan instruksi dengan GPT-4
- Lisensi:
CC BY-NC 4.0 - Terkait:
- (Tatsu-lab/alpaca) | 52k | en | mt | si
- (Orhonovich/Instruksi tidak alami) | 240k | en | mt | campuran
(databrickslabs/dolly) | 15k | en | mt | hg
- Ringkasan: Datset ini dihasilkan oleh ribuan karyawan databricks dalam beberapa kategori perilaku yang diuraikan dalam makalah Instruktur, termasuk brainstorming, klasifikasi, QA tertutup, generasi, ekstraksi informasi, QA terbuka, dan peringkasan.
- Model pembuatan data: N/A
- Kertas: Dolly gratis
- Lisensi:
CC BY-SA 3.0
(OpenAssistant/oasst1) | 161k | ml | mt | hg
- Ringkasan: Percakapan OpenAssistant (OASST1), korpus percakapan asisten yang dihasilkan manusia dan dianotasi manusia yang terdiri dari 161.443 pesan yang didistribusikan di 66.497 pohon percakapan, dalam 35 bahasa yang berbeda, dianotasi dengan peringkat kualitas 461.292.
- Model pembuatan data: N/A
- Kertas: Percakapan OpenAssistant - Demokratisasi Penyelarasan Model Bahasa Besar
- Lisensi:
Apache License 2.0
(Ryokoai/sharegpt52k) | 90k | ml | mt | si
- Ringkasan: 90.000 percakapan yang dikikis melalui API Sharegpt sebelum ditutup. Percakapan ini mencakup prompt pengguna dan tanggapan dari chatgpt OpenAI.
- Model pembuatan data:
GPT-4 , GPT-3.5 - Kertas: N/A.
- Lisensi:
CC0 1.0 Universal
(zjunlp/mol-instruksi) | 2043k | ml | mt | campuran
- Ringkasan: Dataset instruksi biomolekul berskala besar terbuka yang terdiri dari 148,4k berorientasi molekul, berorientasi protein 505K, dan instruksi teks biomolekul 53K.
- Model Pembuatan Data:
GPT-3.5 - Kertas: Mol-Instruksi: Dataset Instruksi Biomolekul Skala Besar untuk Model Bahasa Besar
- Lisensi:
CC BY 4.0
Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) | Dataset Time-Teaming
(Antropik/HH-rlhf) | 22k | en | mt | mix
- Ringkasan: Dataset RLHF ini adalah dataset 'online' iterated yang mencakup data dari model bahasa 52B. Ini berisi 22k perbandingan bantuan dan tidak ada data tim merah.
- Model Pembuatan Data:
Anthropic RL-CAI 52B - Makalah: Melatih asisten yang membantu dan tidak berbahaya dengan pembelajaran penguatan dari umpan balik manusia
- Lisensi:
MIT License - Terkait:
- (Hello-simpleai/hc3) | 24k | en | mt | mix
- (Hello-Simpleai/HC3-Chinese) | 13K | CN | MT | Mix
(Thu-Coai/Prompts Keselamatan) | 100K | CN | MT | Campuran
- Ringkasan: Keamanan Tiongkok meminta untuk mengevaluasi dan meningkatkan keselamatan LLMS. Repositori ini mencakup 100K adegan keamanan Cina meminta dan respons chatgpt, mencakup berbagai skenario keamanan dan serangan komando. Ini dapat digunakan untuk evaluasi komprehensif dan peningkatan keamanan model, serta meningkatkan pengetahuan model keamanan, menyelaraskan output model dengan nilai -nilai manusia.
- Model Pembuatan Data:
GPT-3.5 - Kertas: Penilaian Keselamatan Model Bahasa Besar Cina
- Lisensi:
Apache License 2.0
(HuggingfaceH4/Stack-Exchange-Preferences) | 10741k | en | ts | hg
- Ringkasan: Dataset ini berisi pertanyaan dan jawaban dari dump data stack overflow untuk tujuan pelatihan model preferensi.
- Model pembuatan data: N/A
- Kertas: Asisten Bahasa Umum sebagai Laboratorium untuk Alignment
- Lisensi:
CC BY-SA 4.0 - Terkait:
(stanfordnlp/shp) | 385k | en | mt | hg
- Ringkasan: Setiap contoh adalah posting Reddit dengan pertanyaan/instruksi dan sepasang komentar tingkat atas untuk posting itu, di mana satu komentar lebih disukai oleh pengguna Reddit (secara kolektif).
- Model pembuatan data: N/A
- Kertas: N/A.
- Lisensi: N/A.
(Instruksi-tuning-dengan-gpt-4/gpt-4-llm) | 52k | en | mt | mix
- Ringkasan: Tanggapan peringkat (Catatan: Data dievaluasi oleh model
GPT-4 bukan manusia) dari permintaan alpaca dari tiga model (GPT-4, GPT-3.5 dan OPT-IML) dengan meminta GPT-4 untuk menilai kualitas. Penulis percaya "GPT-4 mampu mengidentifikasi dan memperbaiki kesalahannya sendiri, dan secara akurat menilai kualitas tanggapan" - Model pembuatan data:
GPT-4 - Kertas: Penyetelan instruksi dengan GPT-4
- Lisensi:
CC BY-NC 4.0 - Terkait:
- (Tatsu-lab/alpaca) | 52k | en | mt | si
(Reddit/Eli5) | 500k | en | mt | hg
- Ringkasan: Dataset ini berisi pertanyaan dan jawaban dari subreddits r/menjelaskan sepertiMfive, r/askhistorians dan r/askscience.
- Model pembuatan data: N/A
- Kertas: N/A.
- Lisensi: N/A.
- Terkait: Dataset ELI5 Transformasi dataset ELI5 dalam format yang mirip dengan tumpukan-tiang-tiang.
Lisensi yang memungkinkan penggunaan komersial
Catatan: Meskipun lisensi ini mengizinkan penggunaan komersial, mereka mungkin memiliki persyaratan yang berbeda untuk atribusi, distribusi, atau modifikasi. Pastikan untuk meninjau ketentuan spesifik dari setiap lisensi sebelum menggunakannya dalam proyek komersial.
Lisensi Penggunaan Komersial:
-
Apache License 2.0 -
MIT License -
BSD 3-Clause License -
BSD 2-Clause License -
GNU Lesser General Public License v3.0 (LGPLv3) -
GNU Affero General Public License v3.0 (AGPLv3) -
Mozilla Public License 2.0 (MPL-2.0) -
Eclipse Public License 2.0 (EPL-2.0) -
Microsoft Public License (Ms-PL) -
Creative Commons Attribution 4.0 International (CC BY 4.0) -
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) -
zlib License -
Boost Software License 1.0