Semua orang suka chatgpt, tetapi hanya beberapa perusahaan teknologi besar atau laboratorium yang memiliki kemampuan untuk melatih model seperti itu. Baru-baru ini, pendekatan instruktif diri telah populer di komunitas open source: membuat set data instruksi melalui instruksi/chatgpt dan kemudian menyempurnakan pada LLM skala kecil (seperti LLAMA 7B), yang juga dapat mencapai "sebanding dengan" chatgpt. Salah satu pekerjaan khas adalah Stanford Alpaca.
Saat ini, ada sangat sedikit set data instruksi open source dan terutama dalam bahasa Inggris. Satu -satunya set data instruksi Cina juga diterjemahkan pada set data bahasa Inggris. Namun, mengingat permintaan semua orang yang kuat untuk chatgpt, kami percaya bahwa semakin banyak set data instruksi Cina skala besar akan muncul di masa depan.
Proyek ini bertujuan untuk mengumpulkan set data instruksi Cina sehingga semua orang dapat dengan mudah menyempurnakan LLM Cina.
| Dataset | Ukuran | Keterangan | Sumber |
|---|---|---|---|
| Dataset Guanaco | 27808 | Dataset instruksi multibahasa, skala akan diperbarui ke 92530 | Guanaco |
| alpaca_chinese_dataset | Memperbarui | Terjemahan Mesin + Verifikasi Manual Dataset Alpaca dan Tambahan Beberapa Data Dialog | Stanford Alpaca |
| Dataset Alpaca-Chinese | 20465 | Terjemahan Mesin Dataset Alpaca | Stanford Alpaca |
| China-Alpaca-Lora | Memperbarui | Dataset Alpaca diterjemahkan mesin. Model terjemahan adalah GPT-3.5-turbo, dan akan dikombinasikan dengan dataset Guanaco di masa depan. | Stanford Alpaca |
| GPT-4-llm | 52k | Propt dataset Alpaca diterjemahkan menggunakan chatgpt, dan kemudian respons Cina diperoleh dengan menggunakan GPT-4. | Stanford Alpaca |
| BelleGroup/train_0.5m_cn | 0,5m | Prompt benih Cina yang dibuat oleh penulis, menggunakan Text-Davinci-003 untuk mendapatkan respons | Belle |
| BelleGroup/train_1m_cn | 1m | Propt benih Cina sama seperti di atas. Respons diperoleh dengan menggunakan teks-DavI-003. Dibandingkan dengan set data 0,5m, penulis membersihkan data: beberapa data berkualitas rendah dihapus, seperti data yang mengklaim sebagai GPT模型, data yang tidak dapat dijawab oleh model karena input yang tidak lengkap, dan data yang instruksinya adalah bahasa Cina tetapi input atau target adalah bahasa Inggris. | Belle |
| BelleGroup/School_math_0.25m | 0,25m | Data Masalah Matematika Cina, termasuk proses pemecahan masalah, dihasilkan oleh chatgpt | Belle |
| BelleGroup/multiturn_chat_0.8m | 0.8m | Beberapa putaran percakapan antara pengguna dan asisten, dihasilkan oleh chatgpt | Belle |
| BelleGroup/generated_chat_0.4m | 0.4m | Data dialog peran yang dipersonalisasi, termasuk pengenalan peran, dihasilkan oleh chatgpt | Belle |
| BelleGroup/train_2m_cn | 2m | Data instruksi Cina yang dihasilkan oleh chatgpt | Belle |