Tout le monde aime Chatgpt, mais seules quelques grandes entreprises ou laboratoires de technologie ont la capacité de former de tels modèles. Récemment, une approche auto-instructive a été populaire dans la communauté open source: créer des ensembles de données d'instructions via Instruct / Chatgpt, puis affinie sur des LLM à petite échelle (comme LLAMA 7B), qui peuvent également réaliser "comparable à" Chatgpt. L'un des emplois typiques est Stanford Alpaca.
Actuellement, il y a très peu d'ensembles de données d'instructions open source et sont principalement en anglais. Les seuls ensembles de données d'instruction chinois sont également traduits sur les ensembles de données anglais. Cependant, compte tenu de la forte demande de Chatgpt de chacun, nous pensons que des ensembles de données d'instructions chinoises de plus en plus à grande échelle apparaîtront à l'avenir.
Ce projet vise à collecter des ensembles de données d'instruction chinois afin que tout le monde puisse plus facilement régler les LLM chinois.
| Ensemble de données | Taille | Description | Source |
|---|---|---|---|
| Ensemble de données Guanaco | 27808 | Ensemble de données d'instructions multilingues, l'échelle sera mise à jour à 92530 | Guanaco |
| alpaca_chinese_dataset | Mise à jour | Traduction machine + vérification manuelle de l'ensemble de données alpaca et complétez certaines données de dialogue | Alpaga Stanford |
| alpaga-chinois-dataset | 20465 | Traduction machine de l'ensemble de données alpaca | Alpaga Stanford |
| Chinois-alpaca-lora | Mise à jour | L'ensemble de données ALPACA est traduit par machine. Le modèle de traduction est GPT-3.5-turbo, et il sera combiné avec un ensemble de données Guanaco à l'avenir. | Alpaga Stanford |
| GPT-4-LLM | 52k | Le jeu de données Alpaca Propt est traduit à l'aide de Chatgpt, puis la réponse chinoise est obtenue à l'aide de GPT-4. | Alpaga Stanford |
| BelleGroup / Train_0.5m_cn | 0,5 m | L'invite de semences chinoise créée par l'auteur, en utilisant Text-Davinci-003 pour obtenir une réponse | BELLE |
| Bellegroup / Train_1m_cn | 1m | La propt de semence chinoise est la même que ci-dessus. La réponse est obtenue à l'aide de Text-Davinci-003. Par rapport à l'ensemble de données de 0,5 m, l'auteur a nettoyé les données: certaines données de basse qualité ont été supprimées, telles que les données qui prétendaient être GPT模型, les données auxquelles le modèle ne peut pas répondre en raison d'une entrée incomplète et des données dont les instructions sont chinoises mais l'entrée ou la cible sont l'anglais. | BELLE |
| Bellegroup / School_Math_0.25m | 0,25 m | Données de problème de mathématiques chinoises, y compris le processus de résolution de problèmes, générée par Chatgpt | BELLE |
| Bellegroup / Multiturn_Chat_0.8m | 0,8 m | Plusieurs cycles de conversations entre les utilisateurs et les assistants, générés par Chatgpt | BELLE |
| Bellegroup / généré_chat_0.4m | 0,4 m | Données de dialogue de rôle personnalisées, y compris l'introduction des rôles, générée par Chatgpt | BELLE |
| Bellegroup / Train_2m_cn | 2m | Données d'instruction chinoise générées par Chatgpt | BELLE |