open korean instructions
1.0.0
开放式韩国说明是一个存储库,可为学习语言模型收集韩国仪器数据集。
此外,通过翻译或使用GPT创建了许多不同的数据。如果您有新数据,请告诉我PR。
| 姓名 | # | 类型 | 细节 |
|---|---|---|---|
| Koalpaca v1.0 | 52k | 单身的 | 翻译羊驼指令后 |
| Koalpaca v1.1 | 21k | 单身的 | 收集智力问题后,用chatgpt创建答案 |
| Sharegpt Deepl翻译 | 620k(单身人士) 84K(Multiton) | Multiton,Singleton | 将sharegpt数据转换为deepl |
| sharegpt-74k-ko | 74K,55K(删除代码) | Multiton | 使用Google Translator翻译ShareGpt 90K的清洁版本 |
| Kochatgpt实践 | 13k | Singleton,Multiton,RM | 从韩国问题数据集收集问题后,使用chatgpt创建答案 |
| OIG-SMALL-CHIP2-KO | 210k | 单身的 | Laion AI的Oig-Smallchip-2翻译英文数据Google翻译 |
| Korquad-Chat | 9.6k | Multiton,知识库 | Korquad V1数据上下文(新闻,Wikipedia段落) |
| airc-keti/kowow | ? | Multiton,知识库 | WOW(Wikipedia的向导)-DATA,转化基于知识的对话数据 |
| 咨询活动 | 辛格尔顿(13k) Multiton(8.7K) | Multiton,Singleton | GPT创建的咨询数据 |
| 进化教学 | 37k | 单身的 | GP在使用Wizardlm中使用的EVOL教学增强指令后创建的数据 |
| Kullm V2 | 153K | 单身的 | GPT4ALL,DOLLY,VICUNA(SHAREGPT)数据转换为deepl |
| nlpai-lab/openassistant-guanaco-ko | 9.85k | Multiton | 通过Deepl API的韩语翻译 |
| psymon/namuwiki_alpaca_dataset | 79k | 单身的 | 修改木制Wiki转储文件以适合斯坦福羊驼的数据集 |
| Changpt/Ko-Lima-Vicuna | 1k | 辛迪尔顿(Singleton) | 使用GPT4 API在韩文中再生Lima_vicuna_format数据的数据集 |
| taeshahn/ko-lima | 1k | 辛迪尔顿(Singleton) | 利马:数据集从Limes中转换为韩国语言数据的比对更多(Zhou等,2023) |
| KO-STRATEGYQA | 2.2k(问题),9K(文档) | 多跳QA,是/否短答案类型 | 该数据集是韩国策略QA的版本。使用DEEPL转换现有数据集的所有问题和段落。 |
| Haerae-Hub/koinstruct基地 | 52k | 单身的 | 羊驼似乎是数据的翻译。 |
| Haerae-Hub/koinstruct-qa | 50.3k | 单身的 | 我不知道原始数据是什么。上述数据中可能有重复。 |
| kyujinpy/kopen-platypus | 24.9k | 单身的 | 车库/开放式型数据数据翻译 |
| ziozzang/everytherlm-data-v2-ko | 1k | 单身的 | 将所有内容转换为data-v2 |
| 人右翼/hrc/ | 1.5k | 单身的 | 人权语料库的互动模型命令,以改变韩国国家人权委员会的决定和咨询案件,风格的变化,问题和答案,考虑到战后背景以及使用GPT-3.5-turbo学习后进行检查和回答 |
| kyujinpy/openorca-ko | 21.6k | 单身的 | 通过在Openorca数据集中抽样约20,000个数据集来翻译 |
| kyujinpy/kocot_2000 | 2.16k | 单身的 | 使用DEEPL数据集,有关KAIST-COT的翻译。 |
| RLHF-KOREAN-FRINGLY-LLM | 2.4K(SFT),3.8K(RM),3.6K(RLHF) | 单身的 | 收集各种数据并为RLHF构建一千个数据集 |
| JOJO0217/korean_rlhf_dataset | 107k | 单身的 | 这是一个在Sungkyunkwan大学行业 - 学术合作项目中为韩国LLM Model SFT学习构建的数据集。 |
| Maywell/KO_HH-RLHF-20K_FILTERED | 20k | Multiton,RM | HH-RLHF数据集的20K转化为同步翻译模型 |
| Squarelike/Openorca-gugugo-ko | 640k +(在翻译中) | 单身的 | Gugugo-koen-7b-v1.1 |
| Maywell/ko_ultrafeed_binarized | 62K(RM) | 单身的 | 这是一个数据集,可以通过Synatra-7b translation模型翻译和完善UltraFeedback_Binarar。 |
| Mrbananahuman/kor_ethical_quanswer | 29.1k | 单身的 | RLHF学习答案数据集的AI道德/不道德查询 |
| humanf-markrai/wiki_qa_near_dedup | 138k | 单身的 | Maywell/Wikidata_qa Maywell(Jeonghwan Park)制作的QA数据 |
| KAIST-AI/多语言coltection | 77.2k | 单身的 | Kaist发行的多语言COT系列,77.2K韩国 |
| heegyu/pku-saferlhf-ko | 164K(RM) | 单身的 | PKU-ARIGNMENT/PKU-SAPERLHF数据翻译 |
| heegyu/hh-rlhf-ko | 113K(RM) | Multiton | 人类/HH-RLHF数据翻译 |
| heegyu/webgpt_comparisons_ko | 19.6k(RM) | 单身的 | OpenAi/webgpt_comparisons转化为模型 |
| heegyu/glaive-function-calling-v2-ko | 15.2k(函数调用) | Multiton | glaiveai/glaive-function-alling-v2将15.2k转换为chatgpt |
| Squarelike/ko_medical_chat | 3.04k | Multiton | JWJ7140/KO-MEDICAL-CHAT MEDTEXT和CHATDOCTOR数据集通过GPT3.5转换为韩国对话 |
| Markrai/Kocmercial-Dataset | 144m | 单身的 | 收集和处理市售的数据集并合并 |
| 梅韦尔/科瓦斯特 | 685k | Multiton | 685k大规模的摩尔顿韩国对话 |
| sj-donald/orca-dpo-pairs-ko | 36k | 单身的 | mncai/orca_dpo_pairs_ko,ja-ck/orca-dpo-piirs-ko |
| lcw99/wikipedia-korean-20240501501-100万QNA | 1m | Singleton QA | Hangul Wikipedia分为数百万个部分,并创建了一百万个问答 |
| nlp-with-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k | 196K | 单身的 | 数据集被翻译为wizardlm/wizardlm_evol_instruct_v2_196k |
| Haerae-Hub/Qarv-Instruct-100k | 100k | 单身的 | 需要了解韩国 - 答案对的方向(包括英语) |
| Kuotient/Orca-Math-Word-Problems-193k-Korean | 193k | 单身的 | Microsoft/Orca-Math-Word-Problems-200K翻译 |
| Kuotient/Orca-Math-Korean-Preference | 193k | Singleton(DPO) | 使用翻译的Microsoft/orca-Math-word-Problems-200K制造的DPO数据集 |
| JOJO0217/korean_safe_conversation | 26k | 单身的 | Sungkyunkwan大学 - 为VAIV公司行业构建的任何日常对话数据 - 学术合作,以及用于自然和道德聊天机器人建设的数据集 |
| Haerae-Hub/K2反馈 | 100k | 单身的 | K^2反馈基于反馈收集的董事,旨在提高韩国模型中的评估能力。 (注意:最初,学习Prometheus模型的数据可用于通过仅带5个输出来学习。) |
| Maywell/kiz_samples | 24.9k | 单身的 | Kiqu-70b模型的输出样本。 |
| carrotai/ko-Instruction-dataset | 7k | 单身的 | 使用Wizardlm-2-8x22b模型的韩文中的高质量韩国数据集,Wizardlm:授权大语言模型遵循复杂的说明 |
| Haerae-Hub/HR-Instruct-Math-V0.1 | 30k | 单身的 | 韩国数学指导数据(POC版本) |
| Ik-LAB/QARV-INSTRUCT-KO-MT | 10k | Multiton | Haerae-Hub/QARV-Instruct-KO Multiton数据,该数据使用GPT-3.5-Turbo添加了2个转向对话,用于10,000个数据 |
| IKNOK-LAB/KO-evol-Writing Wiki | 30k | 单身的 | 使用GPT-3.5-Turbo创建的写作 /创意写作数据 |
| AIHUB RLHF数据集 | SFT(13K),RM(33K),PPO(33K) | 单身的 | RM数据是董事的排名和五个答案。对于PPO数据,只有一个指令,没有答案。 |
| beomi/koalpaca-realqa | 18k | 单身的 | 它是根据2023 - 2024年Chatkoalpaca服务的实际韩国用户对话进行韩国自然语言处理的数据集。 |
| 收藏 | 解释 |
|---|---|
| yoo jun -hyuk的翻译数据 | 这是一个将英语数据集转换为韩文的数据集。 |
| Yoo Jun -Hyuk的翻译数据2(Magpie) | 喜p数据集韩文翻译(@nayohan的翻译模型) |
| Songys/huggingface_koreandataset | 截至2024年10月10日,歌曲Young -Sook的韩国数据集在Huggingface中 |
| 我的翻译数据 | 使用Llama3-InstransTrans-enko-8B“从英语翻译为韩文数据集 |
| 姓名 | # | 类型 | 细节 |
|---|---|---|---|
| Haerae-Hub/kmmlu | 243k | MCQA | 韩语语言绩效评估基准45个主题 |
| Haetae Project/Hae-Rae板凳 | 1.5k | MCQA | HAE-RAE板凳是一个基准数据集,旨在评估语言模型的韩语技能(词汇,历史,常识和阅读)。 |
| HAERAE-HUB/CSAT-QA | 0.9k | MCQA | 韩国卫星问题 |
| Haerae-Hub/K2-Eval | 90 | 一代 | 对于正确的答案,指令,人或GPT-4,由90人撰写,需要深入了解韩国文化 |
| SEAN0042/KORMEDMCQA | <1k | MCQA | 韩国医疗质量检查基准 |
| Haerae-Hub/韩国人 - 判决 | <1k | 人类的偏好 | 问题,答案A,回答B和人们的喜好 |
| Haerae-Hub/Kudge | 2.8k | 人类的偏好 | 5.6K韩国人类注释 |