open korean instructions
1.0.0
Open Korean Instrucciones es un repositorio que recopila conjuntos de datos de instrucción coreana para modelos de lenguaje de aprendizaje.
Además, hay muchos datos diferentes creados al traducir o usar GPT. Si tiene nuevos datos, hágamelo saber con PR.
| nombre | # | Tipo | detalle |
|---|---|---|---|
| Koalpaca v1.0 | 52k | Soltero | Después de la traducción de la instrucción de Alpaca |
| Koalpaca v1.1 | 21k | Soltero | Después de recopilar preguntas intelectuales, cree una respuesta con chatgpt |
| Traducción de ShareGpt Deepl | 620k (singleton) 84k (multiton) | Multiton, singleton | Datos de ShareGPT traducidos en DeepL |
| ShareGPT-74K-KO | 74k, 55k (eliminar el código) | Multiton | Traducir la versión limpia del ShareGPT 90K usando un traductor de Google |
| Práctica de kochatgpt | 13k | Singleton, Multiton, RM | Después de recopilar preguntas de conjuntos de datos de preguntas coreanas, cree una respuesta con ChatGPT |
| Oig-small-chip2-ko | 210k | Soltero | Laion AI's OIG-Smallchip-2 traducidos Datos de Inglés Traducido Google Translate |
| Korquad-chat | 9.6k | Multiton, base de conocimiento | Contexto de datos de Korquad V1 (noticias, párrafo de Wikipedia) |
| Airc-keti/kowow | ? | Multiton, base de conocimiento | Wow (mago de wikipedia) -data que traduce datos de diálogo basados en el conocimiento |
| Abogado | Singleton (13k) Multiton (8.7k) | Multiton, singleton | Datos de consulta creados por GPT |
| Ininversión de evolucionar | 37k | Soltero | Datos creados por GP después de mejorar la instrucción utilizando el Evol Instrucionado utilizado en WizardLM |
| Kullm v2 | 153k | Soltero | GPT4All, Dolly, Vicuna (ShareGPT) Datos traducidos a DeepL |
| NLPAI-LAB/OpenAssistant-Guanaco-Ko | 9.85k | Multiton | Traducción coreana de Guanaco a través de la API Deepl |
| psymon/namuwiki_alpaca_dataset | 79k | Soltero | Conjunto de datos que modificó archivos de volcado de wiki de madera para que se ajusten al aprendizaje de Stanford Alpaca |
| Changpt/Ko-Lima-Vicuna | 1k | Singleton, Multiton (extremadamente parte) | Conjunto de datos que regeneró los datos de lima_vicuna_format en coreano utilizando la API GPT4 |
| Taeshahn/Ko-Lima | 1k | Singleton, Multiton (extremadamente parte) | Lima: el conjunto de datos traducido a los datos del idioma coreano de menos es más para la alineación (Zhou et al., 2023) |
| Ko-Strategyqa | 2.2k (pregunta), 9k (documento) | QA multi-salto, sí/no Tipo de respuesta corta | Este conjunto de datos es una versión coreana de Strategyqa. Traducir todas las preguntas y párrafos del conjunto de datos existente usando DeepL. |
| Haerae-hub/koinstruct-base | 52k | Soltero | Alpaca parece ser la traducción de datos. |
| Haerae-hub/koinstruct-qa | 50.3k | Soltero | No sé cuáles son los datos originales. Puede haber duplicados en los datos anteriores. |
| kyujinpy/kopen-platypus | 24.9k | Soltero | Traducción de datos de Garage-Baid/Open-Platypus Data |
| Ziozzang/Everythinglm-Data-V2-KO | 1k | Soltero | Traducir todolm-data-v2 en profundo |
| Human-Rights-Corpus/HRC/ | 1.5k | Soltero | Corpus de derechos humanos Para el modelo interactivo en orden para cambiar la decisión de la Comisión Nacional de Derechos Humanos de Corea y el caso de asesoramiento, el cambio de estilo y la pregunta y la respuesta, el examen se realiza en consideración del contexto de la posguerra y la pregunta y respuesta de una sola guerra después de aprender usando GPT-3.5-TURBO |
| Kyujinpy/Openorca-ko | 21.6k | Soltero | Conjunto de datos traducido mediante un muestreo de unos 20,000 fuera del conjunto de datos de OpenORCA |
| kyujinpy/kocot_2000 | 2.16k | Soltero | Utilizando el conjunto de datos DeepL, traducción sobre el cot kaist. |
| Rlhf-corean-friendlm | 2.4k (SFT), 3.8k (RM), 3.6k (RLHF) | Soltero | Recopilar una variedad de datos y construir mil unidades de conjuntos de datos para RLHF |
| JoJo0217/corean_rlhf_dataset | 107k | Soltero | Este es un conjunto de datos que se construyó para el aprendizaje de SFT del modelo Coreano LLM durante el proyecto de cooperación académica de la industria de la Universidad Sungkyunkwan. |
| Maywell/KO_HHH-RLHF-20K_FILTERED | 20k | Multiton, rm | 20k del conjunto de datos HH-RLHF se traduce en el modelo de traducción Synatra |
| Squarelke/Openorca-Guguugo-Ko | 640k + (en traducción) | Soltero | GUGugo-Koen-7B-V1.1 |
| Maywell/KO_UlTraGeedback_Binarized | 62k (RM) | Soltero | Este es un conjunto de datos que traduce y refinó el ultrafeedback_binarized a través del modelo Synatra-7B-Translation. |
| Mrbananahuman/kor_ethical_quanswer | 29.1k | Soltero | AI consultas éticas/poco éticas para el conjunto de datos de respuesta de aprendizaje RLHF |
| Humanf-Markrai/wiki_qa_near_dedup | 138k | Soltero | Datos de QA realizados por Maywell/Wikidata_qa realizado por Maywell (Jeonghwan Park) |
| Kaist-ai/colección multilingüe | 77.2k | Soltero | Colección multilingüe cot lanzada por Kaist, 77.2k coreano |
| Heegyu/pku-saferlhf-ko | 164K (RM) | Soltero | Traducción de datos de PKU-Alignment/PKU-SaperLHF |
| Heegyu/hh-rlhf-ko | 113k (RM) | Multiton | Traducción de datos antrópico/HH-RLHF |
| Heegyu/webgpt_comparisons_ko | 19.6k (RM) | Soltero | OpenAI/WebGpt_Comparisons se traduce en un modelo |
| Heegyu/Glaive-Function-Calling-V2-KO | 15.2k (llamada de función) | Multiton | Glaiveai/glaive-function-llame-v2 traduce 15.2k en chatgpt |
| Squarelike/ko_medical_chat | 3.04k | Multiton | JWJ7140/KO-MEDICAL-CHAT MedText y ChatDoctor DataSet convertido al diálogo coreano a través de GPT3.5 |
| Markrai/kocommercial-dataset | 1.44m | Soltero | Recopilar y procesar conjuntos de datos disponibles comercialmente y fusionar |
| Maywell/Kovast | 685k | Multiton | 685k Conversación masiva multiton coreana |
| Sj-donald/orca-dpo-pars-ko | 36k | Soltero | mncai/orca_dpo_pairs_ko, ja-ck/orca-dpo-piirs-ko |
| Lcw99/wikipedia-corean-20240501-1million-QNA | 1M | QA Singleton | Hangul Wikipedia se divide en millones de secciones y crea un millón de preguntas y respuestas |
| NLP-With Deeplearning/Ko.wizardlm_evol_instruct_v2_196k | 196k | Soltero | Conjunto de datos traducido como wizardlm/wizardlm_evol_instruct_v2_196k |
| Haerae-Hub/Qarv-Instructo-100k | 100k | Soltero | Instrucciones que requieren conocimiento de los pares de respuesta a Corea (incluido el inglés) |
| Kuotient/Orca-Math-Word-Problems-193K-Korean | 193k | Soltero | Traducción de los problemas de Microsoft/Orca-Math-Word-Word-Word |
| Preferencia de kuotient/orca-mate-korean | 193k | Singleton (DPO) | DPO DataSet hecho utilizando Microsoft/ORCA-MATH-MATH-WORD traducido-Problemas-200K |
| JoJo0217/corean_safe_conversation | 26k | Soltero | Sungkyunkwan University -Everyday Dialogue Data creados para la industria de la empresa VAIV -Cooperación académica y conjunto de datos para la construcción de chatbot natural y ético |
| Haerae-Hub/K2-Feedback | 100k | Soltero | K^2-Feedback integra directores especializados en cultura y lingüística coreana basada en la recopilación de retroalimentación, que está diseñada para mejorar la capacidad de evaluación en el modelo coreano. (Nota: Originalmente, los datos para aprender el modelo Prometheus se pueden usar para aprender al traer solo 5 salidas). |
| Maywell/Kiz_samples | 24.9k | Soltero | Muestra de salida del modelo KIQU-70B. |
| Carrootai/Ko-Instrucción-Dataset | 7k | Soltero | Conjunto de datos coreano de alta calidad en coreano utilizado utilizando el modelo wizardlm-2-8x22b, wizardlm: empoderamiento de modelos de idiomas grandes para seguir instrucciones complejas |
| Haerae-Hub/HR-Instructo-Math-V0.1 | 30k | Soltero | Datos de instrucciones de matemáticas coreanas (versión POC) |
| IKNOK-LAB/QARV-INSTRUCT-KO-MT | 10k | Multiton | HAERAE-HUB/QARV-INSTRUCT-KO Multiton Data que agrega 2 conversaciones de turno utilizando GPT-3.5-TURBO para 10,000 datos |
| IKnow-lab/ko-evol-writing-wiki | 30k | Soltero | Datos de escritura / escritura creativa creados con GPT-3.5-TURBO |
| Conjunto de datos AIHUB RLHF | SFT (13K), RM (33K), PPO (33K) | Soltero | Los datos de RM están clasificados para directores y cinco respuestas. En el caso de los datos de PPO, solo hay una directiva y no hay respuesta. |
| Beomi/Koalpaca-Realqa | 18k | Soltero | Es un conjunto de datos para el procesamiento de lenguaje natural coreano basado en el diálogo real de los usuarios coreanos del servicio Chatkoalpaca en 2023-2024. |
| Recopilación | explicación |
|---|---|
| Datos de traducción de Yoo Jun -Hyuk | Es un conjunto de datos que tradujo el conjunto de datos en inglés al coreano. |
| Datos de traducción de Yoo Jun -Hyuk 2 (Magpie) | Magpie Data conjunto de traducción coreana (@Modelo de traducción de Nayohan) |
| Songys/Huggingface_koreandataSet | A partir del 10 de octubre de 2024, el conjunto de datos coreanos de Song Young -Sook en Huggingface |
| I Datos de traducción de Yohan | Conjuntos de datos traducidos de inglés a coreano usando LLAMA3-INSTRANSTRANS-ENKO-8B` |
| nombre | # | Tipo | detalle |
|---|---|---|---|
| Haerae-hub/kmmlu | 243k | Mcqa | Partido de evaluación de desempeño del idioma coreano en 45 temas |
| Haetae-project/hae-rae-bench | 1.5k | Mcqa | Hae-Rae Bench es un conjunto de datos de referencia diseñado para evaluar las habilidades lingüísticas coreanas (vocabulario, historia, sentido común y lectura) de modelos de idiomas. |
| Haerae-Hub/CSAT-QA | 0.9k | Mcqa | Problema de SAT coreano |
| Haerae-Hub/K2-Eval | 90 | generación | Para la respuesta correcta, la Directiva, People o GPT-4, escrita por 90 personas que necesitan un conocimiento profundo de la cultura coreana. |
| Sean0042/Kormedmcqa | <1K | Mcqa | Punto de referencia de control de calidad médico coreano |
| Haerae-hub/coreano-humano-juzgación | <1K | Preferencia humana | Preguntas, respuestas A, Respuesta B y las preferencias de las personas |
| Haerae-hub/kudge | 2.8k | Preferencia humana | 5.6k anotación humana coreana |