open korean instructions скачать - open korean instructions . Скачать исходный код

open korean instructions

AI Исходный код

1.0.0

Скачать

Открытые корецы

Открытые корейские инструкции - это репозиторий, который собирает корейские наборы данных по инструкциям для обучения моделям языка.
Кроме того, существует много разных данных, созданных путем перевода или использования GPT. Если у вас есть новые данные, пожалуйста, дайте мне знать с PR.

Общественная очистка данных

имя	#	Тип	деталь
Коалпака v1.0	52к	Одинокий	После перевода инструкции альпаки
Коалпака v1.1	21K	Одинокий	После сбора интеллектуальных вопросов создайте ответ с CHATGPT
DEAPGPT DEEPL	620K (Singleton) 84K (многотон)	Multiton, Singleton	Переведенные данные ShareGPT в Deepl
SHAREGPT-74K-KO	74K, 55K (удалить код)	Многотонный	Перевести очищенную версию ShareGPT 90K, используя Google Translator
Практика Kochatgpt	13K	Singleton, Multiton, Rm	После сбора вопросов из наборов данных по корейским вопросам создайте ответ с CHATGPT
OIG-SMALL-CHIP2-KO	210K	Одинокий	LAION AI OIG-SMALLCHIP-2 Перевод английских данных Google Translate
Коркуад-чат	9,6K	Многотонный, база знаний	Контекст данных Korquad v1 (новости, абзац Википедии)
Эйрк-кети/Ковоу	?	Многотонный, база знаний	Вау (Wizard of Wikipedia) -data, которая переводит данные диалога на основе знаний
Консультации	Синглтон (13K) Многотонный (8,7k)	Multiton, Singleton	Консультационные данные, созданные GPT
Evolve-Instruct	37K	Одинокий	Данные, созданные GP после улучшения инструкции с использованием Evol-Intred, используемых в Wizardlm
Kullm v2	153к	Одинокий	GPT4ALL, Dolly, Vicuna (ShareGPT), переведенные в DeepL
Nlpai-lab/openAssistant-guanaco-ko	9.85K	Многотонный	Корейский перевод гуанако через Deepl API
psymon/namuwiki_alpaca_dataset	79K	Одинокий	Набор данных, который модифицировал деревянные файлы дамп вики для подгонки Стэнфордского обучения Alpaca
Changpt/Ko-Lima-Vicuna	1K	Singleton, Multiton (чрезвычайно часть)	Набор данных, который регенерировал данные LIMA_VICUNA_FORMAT на корейском языке с использованием API GPT4
Taeshahn/Ko-Lima	1K	Singleton, Multiton (чрезвычайно часть)	Лима: набор данных, переведенный в данные корейского языка с меньшего размера для выравнивания (Zhou et al., 2023)
Ko-strategyqa	2.2K (вопрос), 9K (документ)	Многопользовательский QA, да/нет короткого типа ответа	Этот набор данных является корейской версией StrategyQA. Переведите все вопросы и абзацы существующего набора данных с помощью Deepl.
Haerae-Hub/Koinstruct-Base	52к	Одинокий	Альпака, кажется, является переводом данных.
Haerae-Hub/Koinstruct-qa	50.3k	Одинокий	Я не знаю, что такое исходные данные. В приведенных выше данных могут быть дубликаты.
Kyujinpy/Kopen-Platypus	24,9K	Одинокий	Гараж-баид/открытый платипус перевод данных данных
Ziozzang/walllm-data-v2-ko	1K	Одинокий	Перевести все, что дает-V2 в Deepl
ПРАВО ЧЕЛОВЕКА-Корпус/HRC/	1,5 тыс	Одинокий	Корпус прав человека для интерактивного приказа об изменении решения Кореи Национальной комиссии по правам человека и делу о консультировании, изменения стиля, вопросов и ответа, экзамен сделан с учетом послевоенного контекста, а также один выстрел и ответ после обучения с использованием GPT-3.5-Turbo
Kyujinpy/Openorca-Ko	21,6K	Одинокий	Набор данных, переведенный путем выборки около 20 000 из набора данных Openorca
Kyujinpy/Kocot_2000	2.16K	Одинокий	Используя Deepl DataSet, перевод о Kaist-cot.
Rlhf-Korean-Friendy-llm	2,4K (SFT), 3,8K (RM), 3,6K (RLHF)	Одинокий	Соберите различные данные и создайте тысячу единиц наборов данных для RLHF
Jojo0217/korean_rlhf_dataset	107K	Одинокий	Это набор данных, который был построен для корейской модели LLM SFT Learning во время проекта сотрудничества в индустрии университетов в университете Sungkyunkwan.
Maywell/ko_hh-rlhf-20k_filtered	20K	Multiton, Rm	20K набора данных HH-RLHF переводится в модель синатра-переноса
Квадратный/Openorca-Gugugugo-Ko	640K + (в переводе)	Одинокий	Gugugo-Koen-7b-V1.1
Maywell/ko_ultrafeedback_binarized	62K (RM)	Одинокий	Это набор данных, который переводит и усовершенствовал ультрафидку с помощью модели Synatra-7B-переноса.
Mrbananahuman/kor_ethical_quanswer	29,1K	Одинокий	ЭТИЧЕСКИЙ/неэтичный запрос AI для набора данных RLHF Learning-Onswer
Humanf-Markrai/wiki_qa_near_dedup	138K	Одинокий	Данные о QA, сделанные Maywell/Wikidata_QA, сделанные Maywell (Jeonghwan Park)
Kaist-AI/многоязычное коллега	77.2k	Одинокий	Многоязычная коллекция кроваток, выпущенная Kaist, 77.2k Corean
Heegyu/pku-saferlhf-ko	164K (RM)	Одинокий	PKU-выравнивание/PKU-SAPERLHF Перевод данных
Heegyu/hh-rlhf-ko	113K (RM)	Многотонный	Антропический/HH-RLHF Перевод данных
Heegyu/webgpt_comparisons_ko	19,6K (RM)	Одинокий	Openai/webgpt_comparisons переводится в модель
HEEGYU/GLAIVE-FUNCTION-CALLING-V2-KO	15.2k (вызов функции)	Многотонный	Glaiveai/glaive-function-calling-v2 переводит 15,2 тыс. В Chatgpt
Квадратный/ko_medical_chat	3.04K	Многотонный	JWJ7140/KO-MedicalCe-Chat Medtext и набор данных чатхатора преобразована в корейский диалог через GPT3.5
Маркаи/Кокоммерк-Датазет	1,44 м	Одинокий	Собирать и обрабатывать коммерчески доступные наборы данных и слияние
Мэйвелл/Коваст	685K	Многотонный	685K Massive Multyton Corean Converse
SJ-DONALD/ORCA-DPO-PAIRS-KO	36K	Одинокий	mncai/orca_dpo_pairs_ko, ja-ck/orca-dpo-piirs-ko
LCW99/Wikipedia-Korean-201240501-1Million-QNA	1 м	Синглтон ка	Hangul Wikipedia разделена на миллионы секций и создает миллион вопросов и ответов
Nlp-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k	196K	Одинокий	Набор данных, переведенный как wizardlm/wizardlm_evol_instruct_v2_196k
Haerae-Hub/QARV-Instruct-100K	100 тыс	Одинокий	Направления, которые требуют знаний о парах Кореи-ответов (включая английский)
Kuotient/orca-math-word-problems-193k-korean	193к	Одинокий	Microsoft/Orca-Math-Word-Problems-200k Перевод
Kuotient/Orca-Math-Korean-Preference	193к	Синглтон (DPO)	Набор данных DPO, изготовленный с использованием переведенного Microsoft/Orca-Math-Word-Problems-200k
Jojo0217/korean_safe_conversation	26K	Одинокий	Данные по диалогу каждую дневной университет Sungkyunkwan, созданные для индустрии Vaiv Company -академическое сотрудничество, и набор данных для естественного и этического строительства чат -ботов
Haerae-Hub/K2-Feedback	100 тыс	Одинокий	K^2-Feedback интегрирует директоров, специализирующихся на корейской культуре и лингвистике на основе коллекции обратной связи, которая предназначена для улучшения способности оценки в корейской модели. (Примечание: первоначально модель данных для обучения может использоваться для обучения, принося только 5 выходов.)
Maywell/kiz_samples	24,9K	Одинокий	Выходной образец модели Kiqu-70B.
Carrotai/Ko-Instruction-Dataset	7K	Одинокий	Высококачественный корейский набор данных в корейском языке, используемый с использованием модели Wizardlm-2-8x22b, Wizardlm: расширение возможностей крупных языковых моделей для соблюдения сложных инструкций
Haerae-Hub/HR-Instruct-Math-V0.1	30 тыс	Одинокий	Данные инструкции по математике в корейской математике (версия POC)
Я знаю-лаб/qarv-instruct-ko-mt	10K	Многотонный	Haerae-Hub/qarv-instruct-ko многотонические данные, которые добавляют 2 разговора по поводу, используя GPT-3.5-Turbo для 10000 данных
Я знаю-лаб/ко-эвол-писание-вики	30 тыс	Одинокий	Написание / творческое написание данных, созданные с использованием GPT-3.5-Turbo
AIHUB RLHF DATASET	SFT (13K), RM (33K), PPO (33K)	Одинокий	Данные RM ранжируются для директоров и пять ответов. В случае данных PPO есть только директива и нет ответа.
Beomi/Koalpaca-Realqa	18к	Одинокий	Это набор данных для корейской обработки естественного языка на основе реального корейского диалога пользователя Service Chatkoalpaca в 2023-2024 годах.

Другие коллекции

Коллекция	объяснение
Данные перевода Yoo Jun -Hyuk	Это набор данных, который перевел английский набор данных в корейский.
Yoo Jun -Hyuk's Translation Data 2 (Сорока)	Набор данных согарника Корейский перевод (модель перевода@Nayohan)
Songys/guggingface_koreandataset	По состоянию на 10 октября 2024 года корейский набор данных Song -Sook
Я перевод данных yohan	Наборы данных, переведенные с английского на корейский язык с использованием Llama3-indransrans-enko-8b

Набор данных оценки

имя	#	Тип	деталь
Haerae-hub/kmmlu	243K	Макка	Корейский язык оценки эффективности языка по 45 темам
Haetae-Project/Hae-Rae-Bench	1,5 тыс	Макка	Hae-Rae Bench-это контрольный набор данных, предназначенный для оценки корейских языковых навыков (словарный запас, история, здравый смысл и чтение) языковых моделей.
Haerae-Hub/csat-Qa	0,9к	Макка	Корейская проблема SAT
Haerae-Hub/K2-Eval	90	поколение	Для правильного ответа, директива, люди или GPT-4, написанные 90 человек, которые нуждаются в глубоких знаниях корейской культуры
SEAN0042/KORMEDMCQA	<1K	Макка	Корейский медицинский эталон QA
Haerae-Hub/Korean-Humans Judgents	<1K	Человеческие предпочтения	Вопросы, ответы А, Ответ Б и предпочтения людей
Haerae-Hub/Kudge	2.8K	Человеческие предпочтения	5,6k корейская человеческая аннотация

Платформа оценки

КОт -ботовая арена Арена таблицы лидеров: совет лидеров, где люди сравнивают результаты нескольких чат -ботов и показывают свои шансы и результаты ELO
Instructkr/Logickor-Leaderboard: модель корейского языка
Лидер Tiger LLM: Q & A, представленные Wandb, Корейский совет по оценке LLM в многопользовательском формате GitHub
Ko-rm-судей: модель вознаграждения, чтобы оценить ответ чат-бота и сравнить счет
Корейский-сат-LLM-лидеровский доска: 10-летняя корейская оценка тестов SAT
Komt-Bench: MT Bench Corean