chinese instruction datasets for llms
1.0.0
人人都愛ChatGPT,但是只有少數大型科技企業或實驗室才有實力訓練出這樣的模型。最近,開源社區流行一種Self-Instruct做法:通過Instruct/ChatGPT創建指令數據集(Instruction datasets),然後在小規模LLM (比如LLaMA 7B)上進行fine-tuning,也能得到"媲美"ChatGPT的效果。其中一個典型工作是Stanford Alpaca。
目前開源的指令數據集非常少並且主要是英文,僅有的幾個中文指令數據集也是在英文數據集上進行翻譯得到的,但考慮到大家對ChatGPT的強烈需求,我們相信後續會有越來越多的大規模中文指令數據集出現。
本項目旨在收集中文指令數據集,以便於大家能夠更方便地對中文LLMs進行fine-tuning。
| Dataset | Size | Description | Source |
|---|---|---|---|
| Guanaco Dataset | 27808 | 多語言指令數據集,規模還會更新至92530 | Guanaco |
| alpaca_chinese_dataset | 正在更新中 | 將Alpaca數據集進行機器翻譯+人工校驗,並補充一些對話數據 | Stanford Alpaca |
| alpaca-chinese-dataset | 20465 | 將Alpaca數據集進行機器翻譯得到 | Stanford Alpaca |
| Chinese-alpaca-lora | 更新中 | 將Alpaca數據集進行機器翻譯得到,翻譯模型是gpt-3.5-turbo, 後續會結合Guanaco數據集 | Stanford Alpaca |
| GPT-4-LLM | 52k | 將Alpaca數據集的prompt利用ChatGPT進行翻譯,然後利用GPT-4得到中文Response | Stanford Alpaca |
| BelleGroup/train_0.5M_CN | 0.5M | 作者創建的中文種子prompt,利用text-davinci-003得到Response | BELLE |
| BelleGroup/train_1M_CN | 1M | 中文種子prompt同上,利用text-davinci-003得到Response,相比於0.5M數據集,作者進行了數據清洗:去掉了一些質量不高的數據,例如自稱GPT模型的數據、由於input不完善導致模型無法回答的數據,以及指令是中文但input或target是英文的數據。 | BELLE |
| BelleGroup/school_math_0.25M | 0.25M | 中文數學題數據,包含解題過程,由ChatGPT產生 | BELLE |
| BelleGroup/multiturn_chat_0.8M | 0.8M | 用戶與助手的多輪對話,由ChatGPT產生 | BELLE |
| BelleGroup/generated_chat_0.4M | 0.4M | 個性化角色對話數據,包含角色介紹,由ChatGPT產生 | BELLE |
| BelleGroup/train_2M_CN | 2M | 中文指令數據,由ChatGPT產生 | BELLE |