open korean instructions
1.0.0
Open Open คำแนะนำของเกาหลีเป็นที่เก็บข้อมูลที่รวบรวมชุดข้อมูลเครื่องมือเกาหลีสำหรับแบบจำลองภาษาการเรียนรู้
นอกจากนี้ยังมีข้อมูลที่แตกต่างกันมากมายที่สร้างขึ้นโดยการแปลหรือใช้ GPT หากคุณมีข้อมูลใหม่โปรดแจ้งให้เราทราบเกี่ยวกับ PR
| ชื่อ | - | พิมพ์ | รายละเอียด |
|---|---|---|---|
| Koalpaca v1.0 | 52K | เดี่ยว | หลังจากแปลคำสั่ง Alpaca |
| Koalpaca v1.1 | 21K | เดี่ยว | หลังจากรวบรวมคำถามทางปัญญาให้สร้างคำตอบด้วย CHATGPT |
| ShareGpt Deepl Translation | 620K (ซิงเกิลตัน) 84K (มัลติตัน) | Multiton, Singleton | แปลข้อมูล sharegpt เป็น deepl |
| ShareGPT-74K-KO | 74K, 55K (ลบรหัส) | มัลติตัน | แปลรุ่นที่ทำความสะอาดของ ShareGpt 90K โดยใช้ Google Translator |
| การปฏิบัติ Kochatgpt | 13K | Singleton, Multiton, RM | หลังจากรวบรวมคำถามจากชุดข้อมูลคำถามเกาหลีให้สร้างคำตอบด้วย chatgpt |
| OIG-SMALL-CHIP2-KO | 210k | เดี่ยว | OIG-SMALLCHIP-2 ของ LAION AI ข้อมูลภาษาอังกฤษที่แปลเป็นภาษาอังกฤษ Google Translate |
| Korquad-Chat | 9.6K | มัลติตันฐานความรู้ | บริบทข้อมูล Korquad V1 (ข่าว, ย่อหน้า Wikipedia) |
| Airc-Keti/Kowow | - | มัลติตันฐานความรู้ | ว้าว (Wizard of Wikipedia) -data ที่แปลข้อมูลบทสนทนาตามความรู้ |
| คำปรึกษา | ซิงเกิลตัน (13K) มัลติตัน (8.7k) | Multiton, Singleton | ข้อมูลการให้คำปรึกษาที่สร้างโดย GPT |
| มีวิวัฒนาการ | 37K | เดี่ยว | ข้อมูลที่สร้างโดย GP หลังจากปรับปรุงคำสั่งโดยใช้ Evol-Instructed ที่ใช้ใน Wizardlm |
| Kullm v2 | 153K | เดี่ยว | ข้อมูล gpt4all, dolly, vicuna (sharegpt) แปลเป็น deepl |
| nlpai-lab/openassistant-guanaco-ko | 9.85K | มัลติตัน | การแปลภาษาเกาหลีของ Guanaco ผ่าน Deepl API |
| psymon/namuwiki_alpaca_dataset | 79K | เดี่ยว | ชุดข้อมูลที่ปรับเปลี่ยนไฟล์ Wiki Wiki เพื่อให้พอดีกับการเรียนรู้ของ Stanford Alpaca |
| Changpt/Ko-Lima-Vicuna | 1k | Singleton, Multiton (ส่วนใหญ่) | ชุดข้อมูลที่สร้างข้อมูล LIMA_VICUNA_FORMAT ใหม่ในเกาหลีโดยใช้ GPT4 API |
| Taeshahn/Ko-Lima | 1k | Singleton, Multiton (ส่วนใหญ่) | LIMA: ชุดข้อมูลที่แปลเป็นข้อมูลภาษาเกาหลีจากน้อยกว่านั้นมีมากขึ้นสำหรับการจัดตำแหน่ง (Zhou et al., 2023) |
| Ko-Strategyqa | 2.2K (คำถาม), 9K (เอกสาร) | Qa Multi-Hop, ใช่/ไม่ใช่ประเภทคำตอบสั้น ๆ | ชุดข้อมูลนี้เป็น StrategyQa รุ่นเกาหลี แปลคำถามและย่อหน้าทั้งหมดของชุดข้อมูลที่มีอยู่โดยใช้ Deepl |
| Haerae-hub/koinstruct-base | 52K | เดี่ยว | Alpaca ดูเหมือนจะเป็นการแปลข้อมูล |
| Haerae-Hub/Koinstruct-Qa | 50.3K | เดี่ยว | ฉันไม่รู้ว่าข้อมูลต้นฉบับคืออะไร อาจมีซ้ำในข้อมูลข้างต้น |
| Kyujinpy/Kopen-platypus | 24.9K | เดี่ยว | การแปลข้อมูลข้อมูล Garage-Baid/Open-platypus |
| Ziozzang/Everythinglm-data-v2-ko | 1k | เดี่ยว | แปล Everythinglm-data-v2 เป็น deepl |
| สิทธิมนุษยชน-Corpus/HRC/ | 1.5k | เดี่ยว | คลังข้อมูลสิทธิมนุษยชนสำหรับแบบจำลองเชิงโต้ตอบเพื่อเปลี่ยนการตัดสินใจของคณะกรรมการสิทธิมนุษยชนแห่งชาติเกาหลีและกรณีการให้คำปรึกษาการเปลี่ยนแปลงรูปแบบและคำถามและคำตอบการตรวจสอบเกิดขึ้นในการพิจารณาบริบทหลังสงครามและคำถามและคำตอบเดียวหลังจากเรียนรู้โดยใช้ GPT-3.5-turbo |
| Kyujinpy/openorca-ko | 21.6K | เดี่ยว | ชุดข้อมูลที่แปลโดยการสุ่มตัวอย่างประมาณ 20,000 จากชุดข้อมูล OpenORCA |
| Kyujinpy/kocot_2000 | 2.16K | เดี่ยว | การใช้ชุดข้อมูล Deepl แปลเกี่ยวกับ Kaist-COT |
| RLHF-korean-funderly-llm | 2.4K (SFT), 3.8K (RM), 3.6K (RLHF) | เดี่ยว | รวบรวมข้อมูลที่หลากหลายและสร้างชุดข้อมูลเป็นพันหน่วยสำหรับ RLHF |
| jojo0217/korean_rlhf_dataset | 107K | เดี่ยว | นี่คือชุดข้อมูลที่สร้างขึ้นสำหรับการเรียนรู้แบบจำลอง SFT LLM เกาหลีระหว่างโครงการความร่วมมือด้านอุตสาหกรรมของมหาวิทยาลัย Sungkyunkwan |
| Maywell/KO_HH-RLHF-20K_Filtered | 20k | Multiton, RM | ชุดข้อมูล HH-RLHF 20K แปลเป็นรูปแบบการแปล synatra |
| Squarelike/Openorca-Gugugo-ko | 640K + (ในการแปล) | เดี่ยว | Gugugo-Koen-7b-v1.1 |
| Maywell/ko_ultrafeedback_binarized | 62K (RM) | เดี่ยว | นี่คือชุดข้อมูลที่แปลและปรับปรุง ultrafeedback_binarized ผ่านโมเดล synatra-7b-translation |
| mrbananahuman/kor_ethical_quanswer | 29.1k | เดี่ยว | AI แบบสอบถามจริยธรรม/จรรยาบรรณสำหรับชุดข้อมูลการเรียนรู้ RLHF คำตอบ |
| humanf-markrai/wiki_qa_near_dedup | 138K | เดี่ยว | ข้อมูล QA ที่ผลิตโดย Maywell/Wikidata_Qa ผลิตโดย Maywell (Jeonghwan Park) |
| Kaist-AI/COT-COT-COTCLECTION | 77.2K | เดี่ยว | คอลเล็กชั่น COT หลายภาษาที่ออกโดย Kaist, 77.2k Korean |
| heegyu/pku-saferlhf-ko | 164K (RM) | เดี่ยว | การแปลข้อมูล PKU-saperlhf/pku-saperlhf |
| heegyu/hh-rlhf-ko | 113K (RM) | มัลติตัน | การแปลข้อมูลมานุษยวิทยา/HH-RLHF |
| heegyu/webgpt_comparisons_ko | 19.6k (RM) | เดี่ยว | openai/webgpt_comparisons แปลเป็นรุ่น |
| heegyu/glaive-function-calling-v2-ko | 15.2K (การเรียกใช้ฟังก์ชัน) | มัลติตัน | glaiveai/glaive-function-calling-v2 แปล 15.2k เป็น chatgpt |
| Squarelike/ko_medical_chat | 3.04K | มัลติตัน | JWJ7140/KO-Medical-Chat Medtext และชุดข้อมูล ChatDoctor แปลงเป็นบทสนทนาเกาหลีผ่าน GPT3.5 |
| Markrai/Kocommercial-Dataset | 1.44m | เดี่ยว | รวบรวมและประมวลผลชุดข้อมูลและผสานที่มีวางจำหน่ายทั่วไป |
| Maywell/Kovast | 685K | มัลติตัน | บทสนทนาเกาหลีขนาดใหญ่ 685K |
| sj-donald/orca-dpo-pairs-ko | 36k | เดี่ยว | mncai/orca_dpo_pairs_ko, ja-ck/orca-dpo-piirs-ko |
| LCW99/Wikipedia-Korean-201240501-1million-qna | 1m | ซิงเกิลตัน | Hangul Wikipedia แบ่งออกเป็นหลายล้านส่วนและสร้างคำถามและคำตอบล้าน |
| nlp-with-deeleplearning/ko.wizardlm_evol_instruct_v2_196k | 196k | เดี่ยว | ชุดข้อมูลที่แปลเป็นตัวช่วยสร้าง/wizardlm_evol_instruct_v2_196k |
| Haerae-hub/qarv-instruct-100k | 100k | เดี่ยว | ทิศทางที่ต้องการความรู้เกี่ยวกับคู่คำตอบเกาหลี (รวมถึงภาษาอังกฤษ) |
| Kuotient/orca-math-words-problems-193k-korean | 193K | เดี่ยว | การแปล Microsoft/orca-math-word-200k การแปล |
| Kuotient/orca-math-korean-preference | 193K | Singleton (DPO) | ชุดข้อมูล DPO ทำโดยใช้ Microsoft/Orca-Math-word-Problems-200K ที่แปลแล้ว |
| jojo0217/korean_safe_conversation | 26k | เดี่ยว | Sungkyunkwan University -ข้อมูลการสนทนาทุกวันที่สร้างขึ้นสำหรับอุตสาหกรรม บริษัท VAIV -ความร่วมมือทางวิชาการและชุดข้อมูลสำหรับการก่อสร้าง Chatbot ตามธรรมชาติและจริยธรรม |
| Haerae-Hub/K2-feedback | 100k | เดี่ยว | K^2-feedback รวมกรรมการที่เชี่ยวชาญในวัฒนธรรมเกาหลีและภาษาศาสตร์ตามคอลเลกชันข้อเสนอแนะซึ่งออกแบบมาเพื่อปรับปรุงความสามารถในการประเมินผลในรูปแบบเกาหลี (หมายเหตุ: ในขั้นต้นข้อมูลสำหรับการเรียนรู้โมเดล Prometheus สามารถใช้สำหรับการเรียนรู้โดยนำเอาท์พุทเพียง 5 เอาท์พุท) |
| Maywell/kiz_samples | 24.9K | เดี่ยว | ตัวอย่างเอาท์พุทของรุ่น Kiqu-70b |
| Carrotai/KO-Instruction-Dataset | 7k | เดี่ยว | ชุดข้อมูลเกาหลีคุณภาพสูงในเกาหลีที่ใช้โดยใช้โมเดล WizardLM-2-8X22B, Wizardlm: เพิ่มขีดความสามารถของแบบจำลองภาษาขนาดใหญ่เพื่อทำตามคำแนะนำที่ซับซ้อน |
| Haerae-Hub/HR-Instruct-Math-V0.1 | 30k | เดี่ยว | ข้อมูลคำสั่งคณิตศาสตร์เกาหลี (เวอร์ชัน POC) |
| iknow-lab/qarv-instruct-ko-mt | 10k | มัลติตัน | ข้อมูล Multiton ของ Haerae-Hub/QARV-Instruct-KO ที่เพิ่มการสนทนา 2 ครั้งโดยใช้ GPT-3.5-turbo สำหรับข้อมูล 10,000 ข้อมูล |
| iknow-lab/ko-evol-writing-wiki | 30k | เดี่ยว | การเขียน / การเขียนเชิงสร้างสรรค์ที่สร้างขึ้นโดยใช้ GPT-3.5-turbo |
| ชุดข้อมูล AIHUB RLHF | SFT (13K), RM (33K), PPO (33K) | เดี่ยว | ข้อมูล RM ได้รับการจัดอันดับสำหรับกรรมการและคำตอบห้าคำ ในกรณีของข้อมูล PPO มีเพียงคำสั่งและไม่มีคำตอบ |
| Beomi/Koalpaca-realqa | 18K | เดี่ยว | มันเป็นชุดข้อมูลสำหรับการประมวลผลภาษาธรรมชาติของเกาหลีตามบทสนทนาผู้ใช้เกาหลีที่แท้จริงของบริการ Chatkoalpaca ในปี 2023-2024 |
| ของสะสม | คำอธิบาย |
|---|---|
| ข้อมูลการแปลของ Yoo Jun -Hyuk | มันเป็นชุดข้อมูลที่แปลชุดข้อมูลภาษาอังกฤษเป็นเกาหลี |
| Yoo Jun -Hyuk ข้อมูลการแปล 2 (Magpie) | ชุดข้อมูล MAGPIE ชุดแปลเกาหลี (รูปแบบการแปลของ Nayohan) |
| songys/huggingface_koreandataset | ณ วันที่ 10 ตุลาคม 2024, Song Young -ข้อมูลเกาหลีของ Sooke ใน HuggingFace |
| ข้อมูลการแปลของฉันโยฮัน | ชุดข้อมูลที่แปลจากภาษาอังกฤษเป็นเกาหลีโดยใช้ Llama3-Instranstrans-enko-8b` |
| ชื่อ | - | พิมพ์ | รายละเอียด |
|---|---|---|---|
| haerae-hub/kmmlu | 243K | MCQA | มาตรฐานการประเมินประสิทธิภาพภาษาเกาหลีใน 45 หัวข้อ |
| Haetae-Project/Hae-Rae-Bench | 1.5k | MCQA | Hae-Rae Bench เป็นชุดข้อมูลมาตรฐานที่ออกแบบมาเพื่อประเมินทักษะภาษาเกาหลี (คำศัพท์ประวัติศาสตร์สามัญสำนึกและการอ่าน) ของแบบจำลองภาษา |
| haerae-hub/csat-qa | 0.9k | MCQA | ปัญหานั่งเกาหลี |
| Haerae-Hub/K2-Eval | 90 | รุ่น | สำหรับคำตอบที่ถูกต้องคำสั่งผู้คนหรือ GPT-4 เขียนโดย 90 คนที่ต้องการความรู้เชิงลึกเกี่ยวกับวัฒนธรรมเกาหลี |
| SEAN0042/KORMEDMCQA | <1K | MCQA | เกณฑ์มาตรฐานการแพทย์เกาหลี |
| Haerae-hub/เกาหลี-มนุษย์-judgements | <1K | ความชอบของมนุษย์ | คำถามคำตอบ A ตอบ B และความชอบของผู้คน |
| haerae-hub/kudge | 2.8K | ความชอบของมนุษย์ | 5.6K คำอธิบายประกอบของมนุษย์เกาหลี |