open korean instructions
1.0.0
As instruções coreanas abertas são um repositório que coleta conjuntos de dados de instruções coreanas para aprender modelos de idiomas.
Além disso, existem muitos dados diferentes criados ao traduzir ou usar o GPT. Se você tiver novos dados, entre em contato com o PR.
| nome | # | Tipo | detalhe |
|---|---|---|---|
| Koalpaca v1.0 | 52k | Solteiro | Após a tradução da instrução de alpaca |
| Koalpaca v1.1 | 21k | Solteiro | Depois de coletar perguntas intelectuais, crie uma resposta com chatgpt |
| Tradução de ShareGPT DEEPL | 620K (Singleton) 84K (Multiton) | Multiton, Singleton | Traduzido Dados do ShareGPT em Deepl |
| ShareGPT-74K-KO | 74k, 55k (Remova o código) | Multiton | Traduza a versão limpa do ShareGPT 90K usando um Translator do Google |
| Prática de Kochatgpt | 13k | Singleton, Multiton, RM | Depois de coletar perguntas dos conjuntos de dados de perguntas coreanas, crie uma resposta com chatgpt |
| OIG-Small-chip2-ko | 210K | Solteiro | Laion AI OIG-SMALLCHIP-2 Traduzido Dados Inglês Traduzido Google Translate |
| Korquad-Chat | 9.6k | Multiton, base de conhecimento | Contexto de dados Korquad V1 (notícias, parágrafo da Wikipedia) |
| Airc-Keti/Kowow | ? | Multiton, base de conhecimento | Uau (Wizard of Wikipedia) -dados que traduz dados de diálogo baseados em conhecimento |
| Counselgpt | Singleton (13K) Multiton (8,7k) | Multiton, Singleton | Dados de consulta criados pelo GPT |
| Evoluve-Instruct | 37k | Solteiro | Dados criados pelo GP após melhorar a instrução usando o Evol-Indtructd usado no Wizardlm |
| Kullm v2 | 153k | Solteiro | GPT4all, Dolly, Vicuna (ShareGPT) dados traduzidos para o DEEPL |
| NLPAI-Lab/OpenAssistant-Guanaco-Ko | 9,85k | Multiton | Tradução coreana de Guanaco através da API DEEPL |
| Psymon/namuwiki_alpaca_dataset | 79K | Solteiro | Conjunto de dados que modificou arquivos de despejo de wiki de madeira para se ajustar ao Stanford Alpaca Learning |
| Changpt/Ko-Lima-Vicuna | 1k | Singleton, Multiton (extremamente parte) | Conjunto de dados que regenerou os dados Lima_vicuna_format em coreano usando a API GPT4 |
| Taeshahn/Ko-Lima | 1k | Singleton, Multiton (extremamente parte) | LIMA: DataSet traduzido para dados de idiomas coreanos de menos é mais para o alinhamento (Zhou et al., 2023) |
| Ko-Strategyqa | 2.2k (pergunta), 9k (documento) | QA multi-hop, sim/não tipo de resposta curta | Este conjunto de dados é uma versão coreana do StrategyQA. Traduza todas as perguntas e parágrafos do conjunto de dados existente usando o DEEPL. |
| Haerae-Hub/Koinstruct-Base | 52k | Solteiro | Alpaca parece ser a tradução de dados. |
| Haerae-Hub/Koinstruct-Qa | 50.3k | Solteiro | Não sei quais são os dados originais. Pode haver duplicatas nos dados acima. |
| Kyujinpy/kopen-platypus | 24.9K | Solteiro | Translação de dados de dados de garagem e platypus de garagem |
| Ziozzang/tudolm-data-v2-ko | 1k | Solteiro | Traduzir tudolm-data-v2 em Deepl |
| Rights-corpus/HRC/ | 1.5k | Solteiro | Corpus de direitos humanos para o modelo interativo em ordem para alterar a decisão da Comissão Nacional de Direitos Humanos da Coréia e do caso de aconselhamento, a mudança de estilo, a pergunta e a resposta, o exame é feito em consideração ao contexto pós-guerra e a pergunta e resposta de uma só vez depois de aprender usando GPT-3.5-Turbo |
| Kyujinpy/Openorca-ko | 21.6k | Solteiro | DataSet traduzido pela amostragem de cerca de 20.000 do DataSet Openorca |
| kyujinpy/kocot_2000 | 2.16k | Solteiro | Usando o conjunto de dados DEEPL, tradução sobre Kaist-Cot. |
| RLHF-KOREAN-LILM-LLM | 2.4K (SFT), 3,8K (RM), 3,6k (RLHF) | Solteiro | Colete uma variedade de dados e construa mil unidades de conjuntos de dados para RLHF |
| JoJo0217/corean_rlhf_dataset | 107k | Solteiro | Este é um conjunto de dados que foi construído para o Modelo da Korean LLM SFT Learning durante o projeto de cooperação acadêmica da Indústria da Universidade Sungkyunkwan. |
| Maywell/KO_HH-RLHF-20K_FILTERED | 20k | Multiton, rm | 20k do conjunto de dados HH-RLHF se traduz no modelo de translação Synatra |
| Quadrado/Openorca-gugo-ko | 640K + (na tradução) | Solteiro | GUGUGO-KOEN-7B-V1.1 |
| Maywell/ko_ultrafeedback_binarized | 62K (RM) | Solteiro | Este é um conjunto de dados que traduz e refinou o Ultrafeedback_Binarized através do modelo Synatra-7b-Translation. |
| Mrbananahuman/kor_ethical_quanswer | 29.1k | Solteiro | Consulta ética/antiética para o conjunto de dados RLHF Learning-Answer |
| HUMANF-MARKRAI/WIKI_QA_NEAR_DEDUP | 138K | Solteiro | Dados de controle de qualidade feitos por Maywell/Wikidata_Qa fabricados por Maywell (Jeenghwan Park) |
| Coleção Kaist-AI/multilíngue | 77.2k | Solteiro | Coleção multilíngue de berço lançado por Kaist, 77,2k coreano |
| Heegyu/pku-saferlhf-ko | 164K (RM) | Solteiro | Tradução de dados de alinhamento PKU/PKU-SaperLHF |
| Heegyu/hh-rlhf-ko | 113K (RM) | Multiton | Tradução de dados antrópicos/HH-RLHF |
| Heegyu/webgpt_comparisons_ko | 19.6K (RM) | Solteiro | OpenAI/WebGPT_Comparisons se traduz em um modelo |
| Heegyu/Glaive-Função-Calling-V2-Ko | 15.2k (chamada de função) | Multiton | Glaiveii/Glaive-Function-Calling-V2 traduz 15,2k em chatgpt |
| Quadrado/ko_medical_chat | 3.04k | Multiton | JWJ7140/KO-MedText MedText e ChatDoctor DataSet convertidos ao diálogo coreano via GPT3.5 |
| Markrai/Kocommercial-Dataset | 1,44m | Solteiro | Colete e processe conjuntos de dados disponíveis comercialmente e mesclar |
| Maywell/Kovast | 685K | Multiton | 685K Conversa coreana multiton enorme |
| SJ-Donald/Orca-Dpo-Par-Ko | 36k | Solteiro | mncai/orca_dpo_pairs_ko, Ja-ck/orca-dpo-piirs-ko |
| LCW99/Wikipedia-Korean-20240501-1milion-QNA | 1m | QA de singleton | O Hangul Wikipedia é dividido em milhões de seções e criou um milhão de perguntas e respostas |
| Nlp-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k | 196K | Solteiro | DataSet traduzido como um assistente/wizardlm_evol_instruct_v2_196k |
| HAERAE-HUB/QARV-INSTRUCT-100K | 100k | Solteiro | Instruções que exigem conhecimento de pares de respostas da Coréia (incluindo inglês) |
| Kuotient/Orca-Math-Word-Problems-193k-Korean | 193K | Solteiro | Tradução Microsoft/Orca-Math-Word-Problems-200k |
| Kuotient/orca-math-corean-preferência | 193K | Singleton (DPO) | Conjunto de dados DPO fabricado usando Microsoft/Orca-Math-Word-Problem-200k traduzido |
| JoJo0217/corean_safe_conversation | 26k | Solteiro | Sungkyunkwan University -Dados de diálogo a todos os dias construídos para a indústria da empresa VAIV -cooperação acadêmica e conjunto de dados para construção de chatbot natural e ético |
| HAERAE-HUB/K2-FEEDBACK | 100k | Solteiro | O K^2-Feedback integra diretores especializados em cultura e linguística coreana com base na coleta de feedback, projetada para melhorar a capacidade de avaliação no modelo coreano. (Nota: Originalmente, os dados para aprender o modelo Prometheus podem ser usados para aprender, trazendo apenas 5 saídas.) |
| Maywell/kiz_samples | 24.9K | Solteiro | Amostra de saída do modelo Kiqu-70b. |
| DataSet de Carrotai/Ko-Instrução | 7K | Solteiro | Conjunto de dados coreano de alta qualidade em coreano usado usando o modelo Wizardlm-2-8x22b, Wizardlm: capacitando grandes modelos de linguagem para seguir instruções complexas |
| Haerae-hub/HR-Instrut-Math-V0.1 | 30k | Solteiro | Dados de instrução de matemática coreana (versão POC) |
| Saiba-Lab/qarv-Instruct-ko-mt | 10k | Multiton | Dados multiton de Haerae-Hub/Qarv-Instrut-KO que adicionam 2 conversas de giro usando GPT-3.5-Turbo para 10.000 dados |
| Eu souber-lab/ko-evol-writing-wiki | 30k | Solteiro | Dados de redação / escrita criativa criados usando GPT-3.5-Turbo |
| Conjunto de dados AIHUB RLHF | SFT (13K), RM (33K), PPO (33K) | Solteiro | Os dados da RM são classificados para diretores e cinco respostas. No caso de dados de PPO, há apenas uma diretiva e nenhuma resposta. |
| Beomi/Koalpaca-Realqa | 18k | Solteiro | É um conjunto de dados para o processamento de linguagem natural coreana com base no diálogo coreano real do serviço Chatkoalpaca em 2023-2024. |
| Coleção | explicação |
|---|---|
| Dados de tradução de Yoo Jun -Hyuk | É um conjunto de dados que traduziu o conjunto de dados em inglês para coreano. |
| Yoo Jun -Dados de tradução de Hyuk 2 (Magpie) | Conjunto de dados Magpie Tradução coreana (@Nayohan's Translation Model) |
| Songys/huggingface_koreandataSet | A partir de 10 de outubro de 2024, o conjunto de dados coreano de música Young -Sook em Huggingface |
| Dados de tradução de Yohan | Conjuntos de dados traduzidos de inglês para coreano usando llama3-instans-enko-8b` |
| nome | # | Tipo | detalhe |
|---|---|---|---|
| Haerae-hub/kmmlu | 243k | McQa | Referência de avaliação de desempenho da linguagem coreana em 45 tópicos |
| Haetae-Project/Hae-rae-banch | 1.5k | McQa | O Banco Hae-Rae é um conjunto de dados de referência projetado para avaliar as habilidades de linguagem coreana (vocabulário, história, senso comum e leitura) dos modelos de idiomas. |
| Haerae-hub/csat-qa | 0,9k | McQa | Problema de SAT coreano |
| Haerae-Hub/K2-EVAL | 90 | geração | Para a resposta correta, a diretiva, as pessoas ou o GPT-4, escrito por 90 pessoas que precisam de conhecimento profundo da cultura coreana |
| Sean0042/KormedMCQA | <1k | McQa | Benchmark coreano de controle de qualidade |
| Haerae-Hub/Júdio Coreano-Humano | <1k | Preferência humana | Perguntas, respostas A, Resposta B e Preferências das pessoas |
| Haerae-Hub/Kudge | 2.8k | Preferência humana | 5.6K Anotação humana coreana |