Awesome Human Préférence DataSet pour LLM? ❤️?
Une liste organisée des ensembles de données de préférence humaine open source pour le réglage de l'instruction LLM, le RLHF et l'évaluation.
Pour les ensembles de données General NLP et les sociétés de texte, consultez cette liste impressionnante.
Ensembles de données
Comparaisons Openai Webgpt
- Comparaisons de 20K où chaque exemple comprend une question, une paire de réponses du modèle et des scores de préférence évalués par l'homme pour chaque réponse.
- L'ensemble de données RLHF a utilisé pour former le modèle de récompense OpenAI WebGPT.
Résumé Openai
- 64K Exemples de résumé de texte, y compris les réponses écrites par l'homme et les réponses du modèle évaluées par l'homme.
- L'ensemble de données RLHF utilisé dans l'OpenAI apprenant à résumer à partir du papier de rétroaction humaine.
- Explorez les exemples de données ici.
Ensemble de données sur la utile et l'intention anthropique (HH-RLHF)
- Au total, 170 000 comparaisons de préférences humaines, y compris les données de préférence humaine collectées pour former un assistant utile et inoffensif avec l'apprentissage du renforcement de la rétroaction humaine et des données d'équipe rouge générée par l'homme des modèles de langage d'équipe rouge pour réduire les dommages, divisés en 3 sous-données:
- Un ensemble de données de base utilisant un modèle 52B distillé contextuel, avec des comparaisons de 44K et une comparaison de 42k en équipe rouge (insigne).
- Un ensemble de données RS de comparaisons de l'utilité de 52k et des comparaisons d'équipement rouge 2K à l'aide de modèles d'échantillonnage de rejet, où l'échantillonnage de rejet a utilisé un modèle de préférence formé sur l'ensemble de données de base.
- Un ensemble de données en ligne itéré, y compris les données des modèles RLHF, mis à jour hebdomadaire sur cinq semaines, avec des comparaisons utiles de 22 000.
Ensemble de données OpenSistants Conversations (OASST1)
- Un corpus de conversation de style assistant annoté par l'homme généré par l'homme composé de 161k messages en 35 langues, annoté avec des cotes de qualité 461k, ce qui a entraîné des arbres de conversation 10k + annotés entièrement annotés.
Ensemble de données sur les préférences humaines de Stanford (SHP)
- 385K Préférences humaines collectives aux réponses aux questions / instructions dans 18 domaines pour la formation des modèles de récompense RLHF et des modèles d'évaluation NLG. Ensembles de données collectés sur reddit.
Reddit eli5
- 270K Exemples de questions, réponses et scores collectés à partir de 3 sous-marins de questions / réponses.
Corpus de comparaison de Chatgpt humain (HC3)
- Réponses humaines 60K et réponses 27K Chatgpt pour environ 24K questions.
- Ensemble de données de frères et sœurs disponible pour chinois.
Ensemble de données de préférence Huggingface H4 StackExchange
- 10 millions de questions (avec> = 2 réponses) et des réponses (notées sur la base du nombre de votes) de Stackoverflow.
Sharegpt.com
- 90k (à partir d'avril 2023) Interactions ChatGPT téléchargées par l'utilisateur.
Pour accéder aux données à l'aide de l'API de Sharegpt, voir la documentation ici L'API ShareGPT est actuellement désactivée ("en raison d'un trafic excédentaire").- Ensembles de données planifiés sur HuggingFace.
Alpaga
- Instructions et démonstrations 52K générées par le moteur Text-Davinci-003 d'OpenAI pour la formation d'auto-instruction .
Gpt4all
- Les paires de réponse invite 1M ont été recueillies à l'aide de l'API GPT-3.5-turbo en mars 2023. GitHub Repo.
Ensemble de données de dolly databricks
- 15K Records de suivi des instructions générés par les employés de Databricks dans des catégories, notamment le brainstorming, la classification, la QA fermée, la génération, l'extraction d'informations, l'assurance qualité-service et la résumé.
HH_Golden
- 42K Données inoffensives, mêmes invites et réponses "rejetées" comme l'ensemble de données inoffensif dans les ensembles de données HH anthropiques, mais les réponses dans les réponses "choisies" sont réécrites à l'aide de GPT4 pour donner des réponses plus inoffensives. La comparaison avant et après réécrit peut être trouvée ici. Empiriquement, par rapport à l'ensemble de données inoffensif d'origine, la formation sur cet ensemble de données améliore les mesures inoffensives pour diverses méthodes d'alignement telles que RLHF et DPO.