open korean instructions
1.0.0
Открытые корейские инструкции - это репозиторий, который собирает корейские наборы данных по инструкциям для обучения моделям языка.
Кроме того, существует много разных данных, созданных путем перевода или использования GPT. Если у вас есть новые данные, пожалуйста, дайте мне знать с PR.
| имя | # | Тип | деталь |
|---|---|---|---|
| Коалпака v1.0 | 52к | Одинокий | После перевода инструкции альпаки |
| Коалпака v1.1 | 21K | Одинокий | После сбора интеллектуальных вопросов создайте ответ с CHATGPT |
| DEAPGPT DEEPL | 620K (Singleton) 84K (многотон) | Multiton, Singleton | Переведенные данные ShareGPT в Deepl |
| SHAREGPT-74K-KO | 74K, 55K (удалить код) | Многотонный | Перевести очищенную версию ShareGPT 90K, используя Google Translator |
| Практика Kochatgpt | 13K | Singleton, Multiton, Rm | После сбора вопросов из наборов данных по корейским вопросам создайте ответ с CHATGPT |
| OIG-SMALL-CHIP2-KO | 210K | Одинокий | LAION AI OIG-SMALLCHIP-2 Перевод английских данных Google Translate |
| Коркуад-чат | 9,6K | Многотонный, база знаний | Контекст данных Korquad v1 (новости, абзац Википедии) |
| Эйрк-кети/Ковоу | ? | Многотонный, база знаний | Вау (Wizard of Wikipedia) -data, которая переводит данные диалога на основе знаний |
| Консультации | Синглтон (13K) Многотонный (8,7k) | Multiton, Singleton | Консультационные данные, созданные GPT |
| Evolve-Instruct | 37K | Одинокий | Данные, созданные GP после улучшения инструкции с использованием Evol-Intred, используемых в Wizardlm |
| Kullm v2 | 153к | Одинокий | GPT4ALL, Dolly, Vicuna (ShareGPT), переведенные в DeepL |
| Nlpai-lab/openAssistant-guanaco-ko | 9.85K | Многотонный | Корейский перевод гуанако через Deepl API |
| psymon/namuwiki_alpaca_dataset | 79K | Одинокий | Набор данных, который модифицировал деревянные файлы дамп вики для подгонки Стэнфордского обучения Alpaca |
| Changpt/Ko-Lima-Vicuna | 1K | Singleton, Multiton (чрезвычайно часть) | Набор данных, который регенерировал данные LIMA_VICUNA_FORMAT на корейском языке с использованием API GPT4 |
| Taeshahn/Ko-Lima | 1K | Singleton, Multiton (чрезвычайно часть) | Лима: набор данных, переведенный в данные корейского языка с меньшего размера для выравнивания (Zhou et al., 2023) |
| Ko-strategyqa | 2.2K (вопрос), 9K (документ) | Многопользовательский QA, да/нет короткого типа ответа | Этот набор данных является корейской версией StrategyQA. Переведите все вопросы и абзацы существующего набора данных с помощью Deepl. |
| Haerae-Hub/Koinstruct-Base | 52к | Одинокий | Альпака, кажется, является переводом данных. |
| Haerae-Hub/Koinstruct-qa | 50.3k | Одинокий | Я не знаю, что такое исходные данные. В приведенных выше данных могут быть дубликаты. |
| Kyujinpy/Kopen-Platypus | 24,9K | Одинокий | Гараж-баид/открытый платипус перевод данных данных |
| Ziozzang/walllm-data-v2-ko | 1K | Одинокий | Перевести все, что дает-V2 в Deepl |
| ПРАВО ЧЕЛОВЕКА-Корпус/HRC/ | 1,5 тыс | Одинокий | Корпус прав человека для интерактивного приказа об изменении решения Кореи Национальной комиссии по правам человека и делу о консультировании, изменения стиля, вопросов и ответа, экзамен сделан с учетом послевоенного контекста, а также один выстрел и ответ после обучения с использованием GPT-3.5-Turbo |
| Kyujinpy/Openorca-Ko | 21,6K | Одинокий | Набор данных, переведенный путем выборки около 20 000 из набора данных Openorca |
| Kyujinpy/Kocot_2000 | 2.16K | Одинокий | Используя Deepl DataSet, перевод о Kaist-cot. |
| Rlhf-Korean-Friendy-llm | 2,4K (SFT), 3,8K (RM), 3,6K (RLHF) | Одинокий | Соберите различные данные и создайте тысячу единиц наборов данных для RLHF |
| Jojo0217/korean_rlhf_dataset | 107K | Одинокий | Это набор данных, который был построен для корейской модели LLM SFT Learning во время проекта сотрудничества в индустрии университетов в университете Sungkyunkwan. |
| Maywell/ko_hh-rlhf-20k_filtered | 20K | Multiton, Rm | 20K набора данных HH-RLHF переводится в модель синатра-переноса |
| Квадратный/Openorca-Gugugugo-Ko | 640K + (в переводе) | Одинокий | Gugugo-Koen-7b-V1.1 |
| Maywell/ko_ultrafeedback_binarized | 62K (RM) | Одинокий | Это набор данных, который переводит и усовершенствовал ультрафидку с помощью модели Synatra-7B-переноса. |
| Mrbananahuman/kor_ethical_quanswer | 29,1K | Одинокий | ЭТИЧЕСКИЙ/неэтичный запрос AI для набора данных RLHF Learning-Onswer |
| Humanf-Markrai/wiki_qa_near_dedup | 138K | Одинокий | Данные о QA, сделанные Maywell/Wikidata_QA, сделанные Maywell (Jeonghwan Park) |
| Kaist-AI/многоязычное коллега | 77.2k | Одинокий | Многоязычная коллекция кроваток, выпущенная Kaist, 77.2k Corean |
| Heegyu/pku-saferlhf-ko | 164K (RM) | Одинокий | PKU-выравнивание/PKU-SAPERLHF Перевод данных |
| Heegyu/hh-rlhf-ko | 113K (RM) | Многотонный | Антропический/HH-RLHF Перевод данных |
| Heegyu/webgpt_comparisons_ko | 19,6K (RM) | Одинокий | Openai/webgpt_comparisons переводится в модель |
| HEEGYU/GLAIVE-FUNCTION-CALLING-V2-KO | 15.2k (вызов функции) | Многотонный | Glaiveai/glaive-function-calling-v2 переводит 15,2 тыс. В Chatgpt |
| Квадратный/ko_medical_chat | 3.04K | Многотонный | JWJ7140/KO-MedicalCe-Chat Medtext и набор данных чатхатора преобразована в корейский диалог через GPT3.5 |
| Маркаи/Кокоммерк-Датазет | 1,44 м | Одинокий | Собирать и обрабатывать коммерчески доступные наборы данных и слияние |
| Мэйвелл/Коваст | 685K | Многотонный | 685K Massive Multyton Corean Converse |
| SJ-DONALD/ORCA-DPO-PAIRS-KO | 36K | Одинокий | mncai/orca_dpo_pairs_ko, ja-ck/orca-dpo-piirs-ko |
| LCW99/Wikipedia-Korean-201240501-1Million-QNA | 1 м | Синглтон ка | Hangul Wikipedia разделена на миллионы секций и создает миллион вопросов и ответов |
| Nlp-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k | 196K | Одинокий | Набор данных, переведенный как wizardlm/wizardlm_evol_instruct_v2_196k |
| Haerae-Hub/QARV-Instruct-100K | 100 тыс | Одинокий | Направления, которые требуют знаний о парах Кореи-ответов (включая английский) |
| Kuotient/orca-math-word-problems-193k-korean | 193к | Одинокий | Microsoft/Orca-Math-Word-Problems-200k Перевод |
| Kuotient/Orca-Math-Korean-Preference | 193к | Синглтон (DPO) | Набор данных DPO, изготовленный с использованием переведенного Microsoft/Orca-Math-Word-Problems-200k |
| Jojo0217/korean_safe_conversation | 26K | Одинокий | Данные по диалогу каждую дневной университет Sungkyunkwan, созданные для индустрии Vaiv Company -академическое сотрудничество, и набор данных для естественного и этического строительства чат -ботов |
| Haerae-Hub/K2-Feedback | 100 тыс | Одинокий | K^2-Feedback интегрирует директоров, специализирующихся на корейской культуре и лингвистике на основе коллекции обратной связи, которая предназначена для улучшения способности оценки в корейской модели. (Примечание: первоначально модель данных для обучения может использоваться для обучения, принося только 5 выходов.) |
| Maywell/kiz_samples | 24,9K | Одинокий | Выходной образец модели Kiqu-70B. |
| Carrotai/Ko-Instruction-Dataset | 7K | Одинокий | Высококачественный корейский набор данных в корейском языке, используемый с использованием модели Wizardlm-2-8x22b, Wizardlm: расширение возможностей крупных языковых моделей для соблюдения сложных инструкций |
| Haerae-Hub/HR-Instruct-Math-V0.1 | 30 тыс | Одинокий | Данные инструкции по математике в корейской математике (версия POC) |
| Я знаю-лаб/qarv-instruct-ko-mt | 10K | Многотонный | Haerae-Hub/qarv-instruct-ko многотонические данные, которые добавляют 2 разговора по поводу, используя GPT-3.5-Turbo для 10000 данных |
| Я знаю-лаб/ко-эвол-писание-вики | 30 тыс | Одинокий | Написание / творческое написание данных, созданные с использованием GPT-3.5-Turbo |
| AIHUB RLHF DATASET | SFT (13K), RM (33K), PPO (33K) | Одинокий | Данные RM ранжируются для директоров и пять ответов. В случае данных PPO есть только директива и нет ответа. |
| Beomi/Koalpaca-Realqa | 18к | Одинокий | Это набор данных для корейской обработки естественного языка на основе реального корейского диалога пользователя Service Chatkoalpaca в 2023-2024 годах. |
| Коллекция | объяснение |
|---|---|
| Данные перевода Yoo Jun -Hyuk | Это набор данных, который перевел английский набор данных в корейский. |
| Yoo Jun -Hyuk's Translation Data 2 (Сорока) | Набор данных согарника Корейский перевод (модель перевода@Nayohan) |
| Songys/guggingface_koreandataset | По состоянию на 10 октября 2024 года корейский набор данных Song -Sook |
| Я перевод данных yohan | Наборы данных, переведенные с английского на корейский язык с использованием Llama3-indransrans-enko-8b |
| имя | # | Тип | деталь |
|---|---|---|---|
| Haerae-hub/kmmlu | 243K | Макка | Корейский язык оценки эффективности языка по 45 темам |
| Haetae-Project/Hae-Rae-Bench | 1,5 тыс | Макка | Hae-Rae Bench-это контрольный набор данных, предназначенный для оценки корейских языковых навыков (словарный запас, история, здравый смысл и чтение) языковых моделей. |
| Haerae-Hub/csat-Qa | 0,9к | Макка | Корейская проблема SAT |
| Haerae-Hub/K2-Eval | 90 | поколение | Для правильного ответа, директива, люди или GPT-4, написанные 90 человек, которые нуждаются в глубоких знаниях корейской культуры |
| SEAN0042/KORMEDMCQA | <1K | Макка | Корейский медицинский эталон QA |
| Haerae-Hub/Korean-Humans Judgents | <1K | Человеческие предпочтения | Вопросы, ответы А, Ответ Б и предпочтения людей |
| Haerae-Hub/Kudge | 2.8K | Человеческие предпочтения | 5,6k корейская человеческая аннотация |