open korean instructions
1.0.0
Les instructions coréennes ouvertes sont un référentiel qui collecte des ensembles de données d'instructions coréens pour l'apprentissage des modèles de langue.
De plus, il existe de nombreuses données différentes créées en traduisant ou en utilisant GPT. Si vous avez de nouvelles données, faites-le moi savoir avec PR.
| nom | # | Taper | détail |
|---|---|---|---|
| Koalpaca v1.0 | 52k | Célibataire | Après la traduction de l'instruction alpaca |
| Koalpaca v1.1 | 21K | Célibataire | Après avoir collecté des questions intellectuelles, créez une réponse avec Chatgpt |
| Sharegpt Deepl Traduction | 620K (singleton) 84K (Multiton) | Multiton, singleton | Traduit des données Sharegpt en deepl |
| Sharegpt-74k-ko | 74K, 55k (supprimer le code) | Multiton | Traduire la version nettoyée du Sharegpt 90K à l'aide d'un traducteur Google |
| Pratique kochatgpt | 13K | Singleton, multiton, RM | Après avoir collecté des questions dans les ensembles de données de questions coréennes, créez une réponse avec Chatgpt |
| OIG-Small-Chip2-ko | 210K | Célibataire | LAION AI'S OIG-SMALLCHIP-2 Traduit de données anglaises Google Translate |
| Korquad-chat | 9,6k | Multiton, base de connaissances | Contexte de données Korquad V1 (News, Wikipedia Paragraph) |
| Airc-Ketti / Kowow | ? | Multiton, base de connaissances | Wow (Wizard of Wikipedia) -Data qui traduit les données de dialogue basées sur les connaissances |
| Conseilgpt | Singleton (13K) Multiton (8,7k) | Multiton, singleton | Données de consultation créées par GPT |
| Instruct en évolution | 37K | Célibataire | Données créées par GP après avoir amélioré les instructions à l'aide de l'instruction EVOL utilisée dans Wizardlm |
| Kullm V2 | 153k | Célibataire | Les données GPT4All, Dolly, Vicuna (Sharegpt) se sont traduites en deepl |
| Nlpai-lab / openassistant-guanaco-ko | 9.85K | Multiton | Traduction coréenne de Guanaco via l'API Deepl |
| psymon / namuwiki_alpaca_dataset | 79k | Célibataire | Ensemble de données qui a modifié les fichiers de vidage wiki en bois pour s'adapter à l'apprentissage de Stanford Alpaca |
| Changpt / ko-lima-vicuna | 1K | Singleton, Multiton (extrêmement partie) | Ensemble de données qui a régénéré les données LIMA_VICUNA_FORMAT en coréen à l'aide de l'API GPT4 |
| Taeshahn / ko-lima | 1K | Singleton, Multiton (extrêmement partie) | Lima: l'ensemble de données traduit en données linguistiques coréennes de moins est plus pour l'alignement (Zhou et al., 2023) |
| Ko-strategyqa | 2.2k (question), 9k (document) | QA multi-hop, oui / pas de type de réponse court | Cet ensemble de données est une version coréenne de StrategyQA. Traduire toutes les questions et paragraphes de l'ensemble de données existant à l'aide de Deepl. |
| Haerae-Hub / Koinstruct-base | 52k | Célibataire | Alpaga semble être la traduction des données. |
| Haerae-Hub / Koinstruct-QA | 50,3k | Célibataire | Je ne sais pas quelles sont les données d'origine. Il peut y avoir des doublons dans les données ci-dessus. |
| kyujinpy / kopen-playpus | 24,9k | Célibataire | Traduction de données de données de garage-pont / playpes ouvertes |
| Ziozzang / Everythinglm-data-v2-ko | 1K | Célibataire | Traduire toutlm-data-v2 en deepl |
| Humain-rights-corpus / hrc / | 1,5k | Célibataire | Human Rights Corpus for Interactive Model-in pour modifier la décision de la Corée de la Commission nationale des droits de l'homme et de l'affaire de conseil, du changement de style et de la question et de la réponse, l'examen est fait en tenant compte du contexte d'après-guerre et de la question et de la réponse à un seul coup après avoir appris à l'aide de GPT-3.5-turbo |
| Kyujinpy / openorca-ko | 21,6k | Célibataire | Ensemble de données traduit par échantillonnage d'environ 20 000 en jeu de données Openorca |
| kyujinpy / kocot_2000 | 2.16k | Célibataire | En utilisant un ensemble de données Deepl, traduction sur Kaist-Cot. |
| RLHF-Korean-Friendly-llm | 2.4k (SFT), 3,8k (RM), 3,6k (RLHF) | Célibataire | Collectez une variété de données et construisez mille unités d'ensembles de données pour RLHF |
| Jojo0217 / coréen_rlhf_dataset | 107K | Célibataire | Il s'agit d'un ensemble de données conçu pour l'apprentissage coréen LLM modèle SFT pendant le projet de coopération de l'industrie de l'Université Sungkyunkwan -ACADEMIM. |
| Maywell / ko_hh-rlhf-20k_filtered | 20K | Multiton, RM | 20K de l'ensemble de données HH-RLHF se traduit par le modèle de trafic de synatra |
| Carré / openorca-guugo-ko | 640k + (en traduction) | Célibataire | Gugugo-koen-7b-v1.1 |
| Maywell / ko_ultrafeedback_binarisé | 62k (RM) | Célibataire | Il s'agit d'un ensemble de données qui traduit et affiné le UltraFeedback_Binarisé via le modèle de translation Synatra-7B. |
| Mrbananahuman / kor_ethical_quanswer | 29.1k | Célibataire | AI Query éthique / contraire à l'éthique pour l'ensemble de données RLHF Learning-Answer |
| Humanf-markrai / wiki_qa_near_dedup | 138K | Célibataire | Données QA faites par Maywell / Wikidata_QA fabriquées par Maywell (Jeonghwan Park) |
| Kaist-ai / multilingue-collection | 77.2k | Célibataire | Collection de lit de lit multilingue publié par Kaist, 77,2k coréen |
| Heegyu / pku-saferlhf-ko | 164K (RM) | Célibataire | Traduction de données PKU-Adignement / PKU-SEMPEMPELHF |
| Heegyu / hh-rlhf-ko | 113K (RM) | Multiton | Traduction de données anthropiques / HH-RLHF |
| Heegyu / webgpt_comparisons_ko | 19,6k (RM) | Célibataire | Openai / webgpt_comparisons se traduit par un modèle |
| Heegyu / glaive-trunction-calling-v2-ko | 15.2k (appel de fonction) | Multiton | GlaiVeai / Glaive-Function-Calling-V2 se traduit 15.2k en chatgpt |
| Carré / ko_medical_chat | 3.04k | Multiton | JWJ7140 / KO-Medical-Chat MedText et jeu de données CHATDOCTOR converti en dialogue coréen via GPT3.5 |
| Markrai / Kocommercial-Dataset | 1,44 m | Célibataire | Collecter et traiter des ensembles de données disponibles dans le commerce et fusionner |
| Maywell / Kovast | 685k | Multiton | 685k Conversation de coréen multiton |
| SJ-Donald / Orca-dpo-paires-ko | 36K | Célibataire | mncai / orca_dpo_pairs_ko, ja-ck / orca-dpo-piirs-ko |
| LCW99 / Wikipedia-Korean-20240501-1MILLION-QNA | 1m | Singleton QA | Hangul Wikipedia est divisé en millions de sections et a créé un million de questions / réponses |
| NLP-with-deeplearning / ko.wizardlm_evol_instruct_v2_196k | 196K | Célibataire | Ensemble de données traduit par wizardlm / wizardlm_evol_instruct_v2_196k |
| Haerae-Hub / Qarv-Instruct-100K | 100k | Célibataire | Instructions qui nécessitent une connaissance des paires coréennes-répondants (y compris l'anglais) |
| Kuotient / orca-samers-problems-193k-koreen | 193K | Célibataire | Microsoft / Orca-Math-Word-Problems-200K Traduction |
| Kuotient / Orca-Math-Marrean-Preference | 193K | Singleton (DPO) | Ensemble de données DPO fabriqué à l'aide de Microsoft / Orca-Math-Word Problems-200K |
| Jojo0217 / coréen_safe_conversation | 26K | Célibataire | Sungkyunkwan University - Données de dialogue de tous les jours construites pour l'industrie de la société Vaiv-coopération académique et ensemble de données pour la construction de chatbot naturel et éthique |
| Haerae-Hub / K2-Feedback | 100k | Célibataire | K ^ 2-Feedback intègre des directeurs spécialisés dans la culture coréenne et la linguistique basée sur la collection de rétroaction, qui est conçue pour améliorer la capacité d'évaluation dans le modèle coréen. (Remarque: à l'origine, les données d'apprentissage du modèle Prometheus peuvent être utilisées pour l'apprentissage en n'apportant que 5 sorties.) |
| Maywell / kiz_s échantillons | 24,9k | Célibataire | Échantillon de sortie du modèle KIQU-70B. |
| Carotai / ko-instruction-dataset | 7k | Célibataire | L'ensemble de données coréen de haute qualité en coréen utilisé en utilisant le modèle Wizardlm-2-8x22b, Wizardlm: autonomiser les modèles de grande langue pour suivre des instructions complexes |
| Haerae-Hub / Hr-Istruct-Math-V0.1 | 30k | Célibataire | Données coréennes d'enseignement des mathématiques (version POC) |
| Iknow-lab / qarv-instruct-ko-mt | 10k | Multiton | Haerae-Hub / Qarv-Instruct-Ko Multiton Data qui ajoute 2 conversations de virage à l'aide de GPT-3.5-turbo pour 10 000 données |
| Iknow-lab / ko-evol-wiki-wiki | 30k | Célibataire | Données d'écriture / écriture créative créées à l'aide de GPT-3.5-turbo |
| Ensemble de données AIHUB RLHF | SFT (13K), RM (33K), PPO (33K) | Célibataire | Les données RM sont classées pour les réalisateurs et cinq réponses. Dans le cas des données PPO, il n'y a qu'une directive et aucune réponse. |
| Beomi / koalpaca-realqa | 18K | Célibataire | Il s'agit d'un ensemble de données pour le traitement coréen du langage naturel basé sur le dialogue utilisateur coréen du service Chatkoalpaca en 2023-2024. |
| Collection | explication |
|---|---|
| Yoo Jun-Données de traduction de Hyuk | Il s'agit d'un ensemble de données qui a traduit l'ensemble de données anglais en coréen. |
| Yoo Jun -Hyuk's Traduction Data 2 (Magpie) | Ensemble de données Magpie Traduction coréenne (@ Nayohan's Translation Model) |
| Songys / HuggingFace_KoreAndataset | Depuis le 10 octobre 2024, Song Young -Sook's Korean Data Set in HuggingFace |
| I Yohan's Traduction Data | Ensembles de données traduits de l'anglais en coréen à l'aide de lama3-instranstrans-enko-8b` |
| nom | # | Taper | détail |
|---|---|---|---|
| Haerae-Hub / Kmmlu | 243k | MCQA | Benchmark d'évaluation des performances de la langue coréenne sur 45 sujets |
| Haetae-Project / Hae-Rae-Bench | 1,5k | MCQA | Le banc Hae-Rae est un ensemble de données de référence conçu pour évaluer les compétences linguistiques coréennes (vocabulaire, histoire, bon sens et lecture) des modèles de langue. |
| Haerae-Hub / CSAT-QA | 0,9k | MCQA | Problème de SAT coréen |
| Haerae-Hub / K2-Eval | 90 | génération | Pour la bonne réponse, la directive, les gens ou le GPT-4, écrite par 90 personnes qui ont besoin de connaissances approfondies de la culture coréenne |
| Sean0042 / kormedmcqa | <1k | MCQA | Benchmark Korean Medical QA |
| Haerae-hub / coréen-humain-jugements | <1k | Préférence humaine | Questions, réponses, réponse B et préférences des gens |
| Haerae-Hub / Kudge | 2,8k | Préférence humaine | Annotation humaine coréenne de 5,6K |