A todos les encanta ChatGPT, pero solo unas pocas grandes compañías de tecnología o laboratorios tienen la capacidad de capacitar a tales modelos. Recientemente, un enfoque autoinstructivo ha sido popular en la comunidad de código abierto: cree conjuntos de datos de instrucciones a través de instruct/chatGPT y luego ajuste en LLMS a pequeña escala (como Llama 7B), que también puede lograr "comparable a" CHATGPT. Uno de los trabajos típicos es Stanford Alpaca.
Actualmente, hay muy pocos conjuntos de datos de instrucciones de código abierto y están principalmente en inglés. Los únicos conjuntos de datos de instrucciones chinos también se traducen en los conjuntos de datos en inglés. Sin embargo, teniendo en cuenta la fuerte demanda de todos para ChatGPT, creemos que cada vez más conjuntos de datos de instrucciones chinos a gran escala aparecerán en el futuro.
Este proyecto tiene como objetivo recopilar conjuntos de datos de instrucciones chinos para que todos puedan ajustar más convenientemente los LLM chinos.
| Conjunto de datos | Tamaño | Descripción | Fuente |
|---|---|---|---|
| Conjunto de datos de guanaco | 27808 | Conjunto de datos de instrucciones multilingües, la escala se actualizará a 92530 | Guanaco |
| alpaca_chinese_dataset | Actualización | Traducción automática + Verificación manual del conjunto de datos de Alpaca y complementar algunos datos de diálogo | Stanford Alpaca |
| alpaca-china-dataset | 20465 | Traducción automática del conjunto de datos Alpaca | Stanford Alpaca |
| Chino-alpaca-lora | Actualización | El conjunto de datos Alpaca está traducido a máquina. El modelo de traducción es GPT-3.5-TURBO, y se combinará con el conjunto de datos Guanaco en el futuro. | Stanford Alpaca |
| GPT-4-LLM | 52k | El conjunto de datos Alpaca se traduce utilizando chatGPT, y luego la respuesta china se obtiene usando GPT-4. | Stanford Alpaca |
| BelleGroup/Train_0.5M_CN | 0.5m | El mensaje de semilla china creado por el autor, utilizando Text-Davinci-003 para obtener respuesta | BELDAD |
| BelleGroup/Train_1m_Cn | 1M | La semilla china propt es el mismo que el anterior. La respuesta se obtiene usando Text-Davinci-003. En comparación con el conjunto de datos de 0.5M, el autor limpió los datos: se eliminaron algunos datos de baja calidad, como los datos que afirmaban ser GPT模型, datos que el modelo no puede responder debido a la entrada incompleta y los datos cuyas instrucciones son chinas pero la entrada o el objetivo son inglés. | BELDAD |
| Bellegroup/school_math_0.25m | 0.25m | Los datos del problema matemático chino, incluido el proceso de resolución de problemas, generados por ChatGPT | BELDAD |
| Bellegroup/multiturn_chat_0.8m | 0.8m | Múltiples rondas de conversaciones entre usuarios y asistentes, generados por ChatGPT | BELDAD |
| Bellegroup/generado_chat_0.4m | 0.4m | Datos de diálogo de roles personalizados, incluida la introducción de roles, generados por ChatGPT | BELDAD |
| BelleGroup/Train_2M_CN | 2m | Datos de instrucciones chinos generados por ChatGPT | BELDAD |