Text génial /-instruction-instruction-tun-dataset
Une collection d'ensembles de données de réglage des instructions open source pour former des LLM basés sur le chat (texte et multimodal) (GPT-4, Chatgpt, Llama, Alpaca). Nous incluons actuellement trois types d'ensemble de données:
- Taune d'instruction visuelle (par exemple, Image-instruction-Answer)
- Ensembles de données de réglage du texte-instruction.
- Écart rouge | Ensembles de données d'apprentissage des commentaires humains (RLHF)
L'ensemble de données de réglage / renforcement des instructions de la rétroaction humaine (RLHF) est un composant clé des LLM de suivi des instructions tels que ChatGpt. Ce dépôt est dédié à la fourniture d'une liste complète des ensembles de données utilisés pour le réglage des instructions dans divers LLM, ce qui facilite l'accès aux chercheurs et aux développeurs pour accéder et utiliser ces ressources.
Listes de CodeBSE pour former vos LLMS:
- NichtDax / Awesome-Totally-Open-Chatgpt: Une base de code d'alternatives totalement ouvertes à Chatgpt
Taille: le nombre de paires de réglage des instructions
Tags linguaux:
- EN: Ensembles de données d'instructions en anglais
- CN: ensembles de données d'instructions en chinois
- ML: [Multi-Lingual] Instruction DataSet dans plusieurs langues
Task-Tags:
- MT: [multi-tâches] ensembles de données contenant plusieurs tâches
- TS: [spécifiques à la tâche] ensembles de données adaptés à des tâches spécifiques
Méthode de génération:
- HG: [ensemble de données généré par l'homme] ensemble de données créé par les humains
- SI: [auto-instruments] ensembles de données générés à l'aide de méthodes d'auto-instruction
- Mélange: [ensemble de données mixtes] L'ensemble de données contient à la fois des données humaines et générées par la machine
- Col: [Collection de l'ensemble de données] Ensemble de données fabriqué à partir d'une collection d'autres ensembles de données
Table des matières
- Le modèle
- L'ensemble de données d'instructions multimodal
- (Vision-caire / minigpt-4) | 5k | en | Mt | mixage
- (Haotian-liu / llava) | 150k | en | Mt | mixage
- L'ensemble de données de réglage des instructions
- (tatsu-lab / alpaca) | 52k | en | mt | si
- (Gururise / ALPACA nettoyée) | 52k | en | Mt | SI
- (Xuefuzhao / instructionwild) | 52k | en | cn | mt | si
- (Josephuscheung / guanacodataset) | 534k | ml | mt | si
- (Hello-simpleai / hc3) | 24k | en | mt | mixage
- (Hello-simpleai / hc3-chinois) | 13k | cn | mt | mixage
- (Allenai / prosocial-dialog) | 58k | en | Mt | mixage
- (Allenai / Natural-instructions) | 1,6k | ml | mt | hg
- (bigScience / xp3) | n / a | ml | mt | mixage
- (Nomic-ai / gpt4all) | 437k | en | Mt | Col
- (Phoebussi / Alpaca-Cot) | 500k | Ml | Mt | Col
- (Google-Research / Flan) | n / a | en | mt | mixage
- (thunlp / ultrachat) | 280k | en | ts | mixage
- (Cascip / Chatalpaca) | 10k | en | Mt | mixage
- (Yeungnlp / firefly-train-1.1m) | 1100k | cn | mt | col
- (Orhonovich / Instructions non naturelles) | 240K | EN | MT | Mélange
- (Réglage de l'instruction-with-gpt-4 / gpt-4-llm) | 52k | en | cn | mt | si
- (Databrickslabs / Dolly) | 15k | en | mt | hg
- (OpenAssistant / Oasst1) | 161k | Ml | Mt | Hg
- (Ryokoai / sharegpt52k) | 90k | ml | mt | si
- (Zjunlp / mol-instructions) | 2043K | Ml | Mt | Mélange
- Ensembles de données d'apprentissage des commentaires humains (RLHF)
- (Anthropic / hh-rlhf) | 22k | en | Mt | mixage
- (Thu-Coai / Sécurité-PROMPTS) | 100K | CN | MT | MIX
- (HuggingFaceH4 / Stack-Exchange-Preferences) | 10741k | en | ts | hg
- (stanfordnlp / shp) | 385k | en | mt | hg
- (Réglage de l'instruction-with-gpt-4 / gpt-4-llm) | 52k | en | mt | mixage
- Licence qui permet une utilisation commerciale
Le modèle
Ajoutez le nouveau projet à la fin du fichier
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable) Les ensembles de données d'instructions multimodales
(Vision-caire / minigpt-4) | 5k | en | Mt | mixage
- Résumé: Un ensemble de données de texte d'image (par exemple, bien aligné (par exemple, plus détaillé d'image) créé à l'aide de la conversation entre deux robots, similaire à ChatCaptioner. Cet ensemble de données de texte d'image peut ensuite être utilisé avec un modèle d'instructions prédéfini pour la finetuning d'instructions d'image.
- Modalité: texte, image
- Modèle de génération de données: N / A
- Document: Minigpt-4: Amélioration de la compréhension de la vision avec des modèles avancés de grande langue
- Licence:
BSD 3-Clause - En rapport:
- ChatCaptioner interactif pour l'image et la vidéo
(Haotian-liu / llava) | 150k | en | Mt | mixage
- Résumé: Llava Visual Instruct 150K est un ensemble de données de suivi des instructions multimodales générées par GPT. Il est construit pour un réglage de l'instruction visuelle et pour construire un grand multimodal vers la capacité de vision / langue GPT-4.
- Modalité: texte, image
- Modèle de génération de données:
GPT-4-0314 - Papier: réglage de l'instruction visuelle
- Licence:
CC BY-NC 4.0
[({sunrainyg} / {instructcv) | en | mt | mix}] {https://github.com/alaalab/instructcv}
- Résumé: Modèles de diffusion de texte à l'image réglés par l'instruction en tant que généralistes de la vision
- Modalité: texte, image
- Papier: instructcv
- Licence:
CC BY-NC 4.0
Les ensembles de données de suivi des instructions
(tatsu-lab / alpaca) | 52k | en | mt | si
- Résumé: Données
52K générées à partir du pipeline self-instruct modifié avec 175 seed task écrite humaine. - Modèle de génération de données:
text-davinci-003 - Papier: alpaca-blog
- Licence:
CC BY-NC 4.0
(Gururise / ALPACA nettoyée) | 52k | en | Mt | SI
- Résumé: Un projet qui a nettoyé manuellement l'ensemble de données Alpaca 52K
- Modèle de génération de données:
text-davinci-003 - Papier: N / A
- Licence:
CC BY-NC 4.0
(Xuefuzhao / instructionwild) | 52k | en | cn | mt | si
- Résumé: Données
52K générées à partir du pipeline self-instruct modifié avec 429 seed task écrite humaine. - Modèle de génération de données:
text-davinci-003 - Papier: N / A
- Licence: L'ensemble de données InstructWild est destiné à des fins de recherche non commerciales uniquement.
(Josephuscheung / guanacodataset) | 534k | ml | mt | si
- Résumé: Données d'instructions
52K générées à partir du pipeline self-instruct modifié avec 429 seed task . - Modèle de génération de données:
text-davinci-003 - Licence:
GPL-3.0
(Hello-simpleai / hc3) | 24k | en | mt | mixage
- Résumé: Le premier corpus de comparaison de Chatgpt humain (version anglaise), nommé ensemble de données HC3
- Modèle de génération de données:
gpt-3.5 , human generated - Papier: à quelle distance est proche des experts humains? Corpus de comparaison, évaluation et détection
- Licence:
CC BY-SA 4.0
(Hello-simpleai / hc3-chinois) | 13k | cn | mt | mixage
- Résumé: Le premier corpus de comparaison de Chatgpt humain (version chinoise), nommé ensemble de données HC3
- Modèle de génération de données:
gpt-3.5 , human generated - Papier: à quelle distance est proche des experts humains? Corpus de comparaison, évaluation et détection
- Licence:
CC BY-SA 4.0
(Allenai / prosocial-dialog) | 58k | en | Mt | mixage
- Résumé: ProsocialDialog est le premier jeu de données de dialogue anglais multi-tour à grande échelle à enseigner aux agents conversationnels pour répondre au contenu problématique après les normes sociales.
- Modèle de génération de données:
gpt-3.5 , human generated - Document: ProsocialDialog: Une épine dorsale prosociale pour les agents conversationnels
- Licence:
CC BY 4.0
(Allenai / Natural-instructions) | 1,6k | ml | mt | hg
- Résumé: Un effort communautaire pour créer une large collection de
1,616 diverse NLP tasks et leurs définitions / instructions en langage naturel. - Modèle de génération de données:
Human generated - Document: Super-Naturalin Inscriptions: Généralisation via des instructions déclaratives sur plus de 1600 tâches NLP
- Licence:
Apache License 2.0
(bigScience / xp3) | n / a | ml | mt | mixage
- Résumé: [Invite-Resource] XP3 (pool public croisé d'invites) est une collection d'invites et de jeux de données sur 46 langues et 16 tâches NLP.
- Modèle de génération de données: N / A
- Document: Généralisation croisée par le biais de finetun multitastiques
- Licence:
Apache License 2.0
(Phoebussi / Alpaca-Cot) | 500k | Ml | Mt | Col
- Résumé: Un ensemble de données pour le raisonnement de la chaîne de réflexion basé sur Llama et Alpaca. Remarque: leur référentiel collectera et combinera continuellement divers ensembles de données de réglage des instructions. GitHub Repo
- Papier: N / A
- Licence:
Apache License 2.0
(Nomic-ai / gpt4all) | 437k | en | Mt | Col
- Résumé: GPT4ALL TIRECTRES Trois ensembles de données accessibles au public: 1.Laion / OIG, 2.PacovalDEZ / StackOverflow-QUESTIONS 3. Sous-ensemble de BigScience / Bloomz-P3
- Modèle de génération de données: N / A
- Document: GPT4ALL: Formation d'un chatbot de style assistant avec distillation de données à grande échelle de GPT-3.5-turbo
- Licence:
MIT License
(teknium1 / gpteacher) | 20k + | en | mt | si
- Résumé: Une collection d'ensembles de données modulaires générés par GPT-4, General-Istruct - Roleplay-Istruct - Code-Istruct - et ToolFormer
- Modèle de génération de données:
GPT-4 - Papier: N / A
- Licence:
MIT License
(Google-Research / Flan) | n / a | en | mt | mixage
- Résumé: La collection Flan compile des ensembles de données de Flan 2021, P3, des instructions super-naturelles, ainsi que des dizaines de jeux de données supplémentaires en un seul endroit, les formate dans un mélange de modèles zéro-shot, inférieurs et chaînes de chaîne
- Modèle de génération de données: N / A
- Document: The Flan Collection: Concevoir des données et des méthodes pour un réglage des instructions efficace
- Licence:
Apache License 2.0
(thunlp / ultrachat) | 280k | en | ts | mixage
- Résumé: Ultrachat vise à construire des données de dialogue open-source, à grande échelle et multi-ronde. La première partie de Ultrachat (c'est-à-dire les questions sur le secteur mondial) est publiée, qui contient 280k dialogues divers et informatifs. Plus de dialogues sur l'écriture et la création, l'assistance sur le matériel existant sont à venir.
- Modèle de génération de données:
GPT-3.5-turbo - Papier: N / A
- Licence:
CC BY-NC 4.0
(Cascip / Chatalpaca) | 10k | en | Mt | mixage
- Résumé: Sur la base des données de Stanford Alpaca, Chatalpaca étend les données aux instructions multi-tournant et à leurs réponses correspondantes. Plus de données (20k) et la version traduite chinoise sont à venir.
- Modèle de génération de données:
GPT-3.5-turbo - Papier: N / A
- Licence:
Apache License 2.0 - Connexes: (Tatsu-lab / alpaca) | 52k | en | Mt | Si
(Yeungnlp / firefly-train-1.1m) | 1100k | cn | mt | col
- Résumé: ensembles de données chinoises de 23 tâches combinés avec des modèles d'instructions écrits par l'homme.
- Modèle de génération de données: N / A
- Papier: N / A
- Licence: N / A
(Orhonovich / Instructions non naturelles) | 240K | EN | MT | Mélange
- Résumé: Exemples de 64k en invitant un modèle de langue avec trois exemples de graines d'instructions et en provoquant un quatrième. Ensuite, l'ensemble est étendu à 240k en invitant le modèle à reformuler chaque instruction.
- Modèle de génération de données:
text-davinci-002 - Document: Instructions contre nature: réglage des modèles de langue avec (presque) pas de travail humain
- Licence:
MIT License
(Réglage de l'instruction-with-gpt-4 / gpt-4-llm) | 52k | en | cn | mt | si
- Résumé: 52k Données de suivi des instructions générées par GPT-4 avec les invites d'alpaca d'origine et les invites alpaca traduites en chinois par les données de suivi des instructions de ChatGPT + 9K générées par GPT-4 avec des invites dans l'instruction contre nature.
- Modèle de génération de données:
GPT-4 - Papier: réglage des instructions avec GPT-4
- Licence:
CC BY-NC 4.0 - En rapport:
- (tatsu-lab / alpaca) | 52k | en | mt | si
- (Orhonovich / Instructions non naturelles) | 240K | EN | MT | Mélange
(Databrickslabs / Dolly) | 15k | en | mt | hg
- Résumé: Cet ensemble de données a été généré par des milliers d'employés de Databricks dans plusieurs des catégories comportementales décrites dans le document InstructGpt, notamment le brainstorming, la classification, la QA fermée, la génération, l'extraction d'informations, le QA ouvert et le résumé.
- Modèle de génération de données: N / A
- Papier: Dolly gratuit
- Licence:
CC BY-SA 3.0
(OpenAssistant / Oasst1) | 161k | Ml | Mt | Hg
- Résumé: Conversations openassistantes (OASST1), un corpus de conversation de style assistant animné et annoté par l'homme composé de 161 443 messages distribués dans 66 497 arbres de conversation, dans 35 langues différentes, annotée avec 461 292 ratings de qualité.
- Modèle de génération de données: N / A
- Document: Conversations ouvertes - démocratiser l'alignement des modèles de langues
- Licence:
Apache License 2.0
(Ryokoai / sharegpt52k) | 90k | ml | mt | si
- Résumé: 90 000 conversations grattées via l'API Sharegpt avant d'être fermée. Ces conversations incluent à la fois les invites utilisateur et les réponses du chatppt d'OpenAI.
- Modèle de génération de données:
GPT-4 , GPT-3.5 - Papier: N / A
- Licence:
CC0 1.0 Universal
(Zjunlp / mol-instructions) | 2043K | Ml | Mt | Mélange
- Résumé: Un ensemble de données d'instructions biomoléculaires ouvert et à grande échelle composé de 148,4k orientée molécule, de 505k orientés vers les protéines et d'instructions de texte biomoléculaire 53K.
- Modèle de génération de données:
GPT-3.5 - Document: Mol-Istructions: Un ensemble de données d'instructions biomoléculaires à grande échelle pour les modèles de grande langue
- Licence:
CC BY 4.0
Renforcement d'apprentissage de la rétroaction humaine (RLHF) | Ensembles de données d'équipement rouge
(Anthropic / hh-rlhf) | 22k | en | Mt | mixage
- Résumé: Cet ensemble de données RLHF est un ensemble de données «en ligne» itéré qui inclut les données des modèles de langage 52B. Il contient des comparaisons utiles de 22 000 et aucune données d'équipement rouge.
- Modèle de génération de données:
Anthropic RL-CAI 52B - Document: Formation d'un assistant utile et inoffensif avec apprentissage du renforcement des commentaires humains
- Licence:
MIT License - En rapport:
- (Hello-simpleai / hc3) | 24k | en | mt | mixage
- (Hello-simpleai / hc3-chinois) | 13k | cn | mt | mixage
(Thu-Coai / Sécurité-PROMPTS) | 100K | CN | MT | MIX
- Résumé: La sécurité chinoise invite à évaluer et à améliorer la sécurité des LLM. Ce référentiel comprend des invites de scène de sécurité chinoises de 100k et des réponses Chatgpt, couvrant divers scénarios de sécurité et attaques de commande. Il peut être utilisé pour l'évaluation complète et l'amélioration de la sécurité du modèle, ainsi que pour améliorer les connaissances du modèle sur la sécurité, aligner le modèle de modèle avec les valeurs humaines.
- Modèle de génération de données:
GPT-3.5 - Document: Évaluation de la sécurité des modèles chinois de grande langue
- Licence:
Apache License 2.0
(HuggingFaceH4 / Stack-Exchange-Preferences) | 10741k | en | ts | hg
- Résumé: Cet ensemble de données contient des questions et réponses du vidage de données de débordement de pile dans le but de la formation du modèle de préférence.
- Modèle de génération de données: N / A
- Document: Un assistant de langue générale en tant que laboratoire d'alignement
- Licence:
CC BY-SA 4.0 - En rapport:
(stanfordnlp / shp) | 385k | en | mt | hg
- Résumé: Chaque exemple est un article Reddit avec une question / instruction et une paire de commentaires de niveau supérieur pour ce post, où un commentaire est plus préféré par les utilisateurs de Reddit (collectivement).
- Modèle de génération de données: N / A
- Papier: N / A
- Licence: N / A
(Réglage de l'instruction-with-gpt-4 / gpt-4-llm) | 52k | en | mt | mixage
- Résumé: Réponses classées (Remarque: Les données sont évaluées par le modèle
GPT-4 non humain) des invites alpaca à partir de trois modèles (GPT-4, GPT-3.5 et OPT-IML) en demandant à GPT-4 d'évaluer la qualité. L'auteur pense que "GPT-4 est capable d'identifier et de réparer ses propres erreurs, et de juger avec précision la qualité des réponses" - Modèle de génération de données:
GPT-4 - Papier: réglage des instructions avec GPT-4
- Licence:
CC BY-NC 4.0 - En rapport:
- (tatsu-lab / alpaca) | 52k | en | mt | si
(Reddit / eli5) | 500k | en | mt | hg
- Résumé: Cet ensemble de données contient des questions et des réponses des subreddits R / ExplicationlikeImfive, R / Askhistoriens et R / Askscience.
- Modèle de génération de données: N / A
- Papier: N / A
- Licence: N / A
- Connexes: ensemble de données ELI5 Une transformation de l'ensemble de données ELI5 dans un format similaire à l'échange de pile.
Licence qui permet une utilisation commerciale
Remarque: Bien que ces licences permettent une utilisation commerciale, elles peuvent avoir des exigences différentes d'attribution, de distribution ou de modification. Assurez-vous de revoir les termes spécifiques de chaque licence avant de l'utiliser dans un projet commercial.
Licences d'utilisation commerciale:
-
Apache License 2.0 -
MIT License -
BSD 3-Clause License -
BSD 2-Clause License -
GNU Lesser General Public License v3.0 (LGPLv3) -
GNU Affero General Public License v3.0 (AGPLv3) -
Mozilla Public License 2.0 (MPL-2.0) -
Eclipse Public License 2.0 (EPL-2.0) -
Microsoft Public License (Ms-PL) -
Creative Commons Attribution 4.0 International (CC BY 4.0) -
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) -
zlib License -
Boost Software License 1.0