open korean instructions ดาวน์โหลด - open korean instructions ดาวน์โหลดซอร์สโค้ดดาวน์โหลด

การสอนแบบเปิดโล่ง

Open Open คำแนะนำของเกาหลีเป็นที่เก็บข้อมูลที่รวบรวมชุดข้อมูลเครื่องมือเกาหลีสำหรับแบบจำลองภาษาการเรียนรู้
นอกจากนี้ยังมีข้อมูลที่แตกต่างกันมากมายที่สร้างขึ้นโดยการแปลหรือใช้ GPT หากคุณมีข้อมูลใหม่โปรดแจ้งให้เราทราบเกี่ยวกับ PR

การล้างข้อมูลสาธารณะ

ชื่อ	-	พิมพ์	รายละเอียด
Koalpaca v1.0	52K	เดี่ยว	หลังจากแปลคำสั่ง Alpaca
Koalpaca v1.1	21K	เดี่ยว	หลังจากรวบรวมคำถามทางปัญญาให้สร้างคำตอบด้วย CHATGPT
ShareGpt Deepl Translation	620K (ซิงเกิลตัน) 84K (มัลติตัน)	Multiton, Singleton	แปลข้อมูล sharegpt เป็น deepl
ShareGPT-74K-KO	74K, 55K (ลบรหัส)	มัลติตัน	แปลรุ่นที่ทำความสะอาดของ ShareGpt 90K โดยใช้ Google Translator
การปฏิบัติ Kochatgpt	13K	Singleton, Multiton, RM	หลังจากรวบรวมคำถามจากชุดข้อมูลคำถามเกาหลีให้สร้างคำตอบด้วย chatgpt
OIG-SMALL-CHIP2-KO	210k	เดี่ยว	OIG-SMALLCHIP-2 ของ LAION AI ข้อมูลภาษาอังกฤษที่แปลเป็นภาษาอังกฤษ Google Translate
Korquad-Chat	9.6K	มัลติตันฐานความรู้	บริบทข้อมูล Korquad V1 (ข่าว, ย่อหน้า Wikipedia)
Airc-Keti/Kowow	-	มัลติตันฐานความรู้	ว้าว (Wizard of Wikipedia) -data ที่แปลข้อมูลบทสนทนาตามความรู้
คำปรึกษา	ซิงเกิลตัน (13K) มัลติตัน (8.7k)	Multiton, Singleton	ข้อมูลการให้คำปรึกษาที่สร้างโดย GPT
มีวิวัฒนาการ	37K	เดี่ยว	ข้อมูลที่สร้างโดย GP หลังจากปรับปรุงคำสั่งโดยใช้ Evol-Instructed ที่ใช้ใน Wizardlm
Kullm v2	153K	เดี่ยว	ข้อมูล gpt4all, dolly, vicuna (sharegpt) แปลเป็น deepl
nlpai-lab/openassistant-guanaco-ko	9.85K	มัลติตัน	การแปลภาษาเกาหลีของ Guanaco ผ่าน Deepl API
psymon/namuwiki_alpaca_dataset	79K	เดี่ยว	ชุดข้อมูลที่ปรับเปลี่ยนไฟล์ Wiki Wiki เพื่อให้พอดีกับการเรียนรู้ของ Stanford Alpaca
Changpt/Ko-Lima-Vicuna	1k	Singleton, Multiton (ส่วนใหญ่)	ชุดข้อมูลที่สร้างข้อมูล LIMA_VICUNA_FORMAT ใหม่ในเกาหลีโดยใช้ GPT4 API
Taeshahn/Ko-Lima	1k	Singleton, Multiton (ส่วนใหญ่)	LIMA: ชุดข้อมูลที่แปลเป็นข้อมูลภาษาเกาหลีจากน้อยกว่านั้นมีมากขึ้นสำหรับการจัดตำแหน่ง (Zhou et al., 2023)
Ko-Strategyqa	2.2K (คำถาม), 9K (เอกสาร)	Qa Multi-Hop, ใช่/ไม่ใช่ประเภทคำตอบสั้น ๆ	ชุดข้อมูลนี้เป็น StrategyQa รุ่นเกาหลี แปลคำถามและย่อหน้าทั้งหมดของชุดข้อมูลที่มีอยู่โดยใช้ Deepl
Haerae-hub/koinstruct-base	52K	เดี่ยว	Alpaca ดูเหมือนจะเป็นการแปลข้อมูล
Haerae-Hub/Koinstruct-Qa	50.3K	เดี่ยว	ฉันไม่รู้ว่าข้อมูลต้นฉบับคืออะไร อาจมีซ้ำในข้อมูลข้างต้น
Kyujinpy/Kopen-platypus	24.9K	เดี่ยว	การแปลข้อมูลข้อมูล Garage-Baid/Open-platypus
Ziozzang/Everythinglm-data-v2-ko	1k	เดี่ยว	แปล Everythinglm-data-v2 เป็น deepl
สิทธิมนุษยชน-Corpus/HRC/	1.5k	เดี่ยว	คลังข้อมูลสิทธิมนุษยชนสำหรับแบบจำลองเชิงโต้ตอบเพื่อเปลี่ยนการตัดสินใจของคณะกรรมการสิทธิมนุษยชนแห่งชาติเกาหลีและกรณีการให้คำปรึกษาการเปลี่ยนแปลงรูปแบบและคำถามและคำตอบการตรวจสอบเกิดขึ้นในการพิจารณาบริบทหลังสงครามและคำถามและคำตอบเดียวหลังจากเรียนรู้โดยใช้ GPT-3.5-turbo
Kyujinpy/openorca-ko	21.6K	เดี่ยว	ชุดข้อมูลที่แปลโดยการสุ่มตัวอย่างประมาณ 20,000 จากชุดข้อมูล OpenORCA
Kyujinpy/kocot_2000	2.16K	เดี่ยว	การใช้ชุดข้อมูล Deepl แปลเกี่ยวกับ Kaist-COT
RLHF-korean-funderly-llm	2.4K (SFT), 3.8K (RM), 3.6K (RLHF)	เดี่ยว	รวบรวมข้อมูลที่หลากหลายและสร้างชุดข้อมูลเป็นพันหน่วยสำหรับ RLHF
jojo0217/korean_rlhf_dataset	107K	เดี่ยว	นี่คือชุดข้อมูลที่สร้างขึ้นสำหรับการเรียนรู้แบบจำลอง SFT LLM เกาหลีระหว่างโครงการความร่วมมือด้านอุตสาหกรรมของมหาวิทยาลัย Sungkyunkwan
Maywell/KO_HH-RLHF-20K_Filtered	20k	Multiton, RM	ชุดข้อมูล HH-RLHF 20K แปลเป็นรูปแบบการแปล synatra
Squarelike/Openorca-Gugugo-ko	640K + (ในการแปล)	เดี่ยว	Gugugo-Koen-7b-v1.1
Maywell/ko_ultrafeedback_binarized	62K (RM)	เดี่ยว	นี่คือชุดข้อมูลที่แปลและปรับปรุง ultrafeedback_binarized ผ่านโมเดล synatra-7b-translation
mrbananahuman/kor_ethical_quanswer	29.1k	เดี่ยว	AI แบบสอบถามจริยธรรม/จรรยาบรรณสำหรับชุดข้อมูลการเรียนรู้ RLHF คำตอบ
humanf-markrai/wiki_qa_near_dedup	138K	เดี่ยว	ข้อมูล QA ที่ผลิตโดย Maywell/Wikidata_Qa ผลิตโดย Maywell (Jeonghwan Park)
Kaist-AI/COT-COT-COTCLECTION	77.2K	เดี่ยว	คอลเล็กชั่น COT หลายภาษาที่ออกโดย Kaist, 77.2k Korean
heegyu/pku-saferlhf-ko	164K (RM)	เดี่ยว	การแปลข้อมูล PKU-saperlhf/pku-saperlhf
heegyu/hh-rlhf-ko	113K (RM)	มัลติตัน	การแปลข้อมูลมานุษยวิทยา/HH-RLHF
heegyu/webgpt_comparisons_ko	19.6k (RM)	เดี่ยว	openai/webgpt_comparisons แปลเป็นรุ่น
heegyu/glaive-function-calling-v2-ko	15.2K (การเรียกใช้ฟังก์ชัน)	มัลติตัน	glaiveai/glaive-function-calling-v2 แปล 15.2k เป็น chatgpt
Squarelike/ko_medical_chat	3.04K	มัลติตัน	JWJ7140/KO-Medical-Chat Medtext และชุดข้อมูล ChatDoctor แปลงเป็นบทสนทนาเกาหลีผ่าน GPT3.5
Markrai/Kocommercial-Dataset	1.44m	เดี่ยว	รวบรวมและประมวลผลชุดข้อมูลและผสานที่มีวางจำหน่ายทั่วไป
Maywell/Kovast	685K	มัลติตัน	บทสนทนาเกาหลีขนาดใหญ่ 685K
sj-donald/orca-dpo-pairs-ko	36k	เดี่ยว	mncai/orca_dpo_pairs_ko, ja-ck/orca-dpo-piirs-ko
LCW99/Wikipedia-Korean-201240501-1million-qna	1m	ซิงเกิลตัน	Hangul Wikipedia แบ่งออกเป็นหลายล้านส่วนและสร้างคำถามและคำตอบล้าน
nlp-with-deeleplearning/ko.wizardlm_evol_instruct_v2_196k	196k	เดี่ยว	ชุดข้อมูลที่แปลเป็นตัวช่วยสร้าง/wizardlm_evol_instruct_v2_196k
Haerae-hub/qarv-instruct-100k	100k	เดี่ยว	ทิศทางที่ต้องการความรู้เกี่ยวกับคู่คำตอบเกาหลี (รวมถึงภาษาอังกฤษ)
Kuotient/orca-math-words-problems-193k-korean	193K	เดี่ยว	การแปล Microsoft/orca-math-word-200k การแปล
Kuotient/orca-math-korean-preference	193K	Singleton (DPO)	ชุดข้อมูล DPO ทำโดยใช้ Microsoft/Orca-Math-word-Problems-200K ที่แปลแล้ว
jojo0217/korean_safe_conversation	26k	เดี่ยว	Sungkyunkwan University -ข้อมูลการสนทนาทุกวันที่สร้างขึ้นสำหรับอุตสาหกรรม บริษัท VAIV -ความร่วมมือทางวิชาการและชุดข้อมูลสำหรับการก่อสร้าง Chatbot ตามธรรมชาติและจริยธรรม
Haerae-Hub/K2-feedback	100k	เดี่ยว	K^2-feedback รวมกรรมการที่เชี่ยวชาญในวัฒนธรรมเกาหลีและภาษาศาสตร์ตามคอลเลกชันข้อเสนอแนะซึ่งออกแบบมาเพื่อปรับปรุงความสามารถในการประเมินผลในรูปแบบเกาหลี (หมายเหตุ: ในขั้นต้นข้อมูลสำหรับการเรียนรู้โมเดล Prometheus สามารถใช้สำหรับการเรียนรู้โดยนำเอาท์พุทเพียง 5 เอาท์พุท)
Maywell/kiz_samples	24.9K	เดี่ยว	ตัวอย่างเอาท์พุทของรุ่น Kiqu-70b
Carrotai/KO-Instruction-Dataset	7k	เดี่ยว	ชุดข้อมูลเกาหลีคุณภาพสูงในเกาหลีที่ใช้โดยใช้โมเดล WizardLM-2-8X22B, Wizardlm: เพิ่มขีดความสามารถของแบบจำลองภาษาขนาดใหญ่เพื่อทำตามคำแนะนำที่ซับซ้อน
Haerae-Hub/HR-Instruct-Math-V0.1	30k	เดี่ยว	ข้อมูลคำสั่งคณิตศาสตร์เกาหลี (เวอร์ชัน POC)
iknow-lab/qarv-instruct-ko-mt	10k	มัลติตัน	ข้อมูล Multiton ของ Haerae-Hub/QARV-Instruct-KO ที่เพิ่มการสนทนา 2 ครั้งโดยใช้ GPT-3.5-turbo สำหรับข้อมูล 10,000 ข้อมูล
iknow-lab/ko-evol-writing-wiki	30k	เดี่ยว	การเขียน / การเขียนเชิงสร้างสรรค์ที่สร้างขึ้นโดยใช้ GPT-3.5-turbo
ชุดข้อมูล AIHUB RLHF	SFT (13K), RM (33K), PPO (33K)	เดี่ยว	ข้อมูล RM ได้รับการจัดอันดับสำหรับกรรมการและคำตอบห้าคำ ในกรณีของข้อมูล PPO มีเพียงคำสั่งและไม่มีคำตอบ
Beomi/Koalpaca-realqa	18K	เดี่ยว	มันเป็นชุดข้อมูลสำหรับการประมวลผลภาษาธรรมชาติของเกาหลีตามบทสนทนาผู้ใช้เกาหลีที่แท้จริงของบริการ Chatkoalpaca ในปี 2023-2024

คอลเลกชันอื่น ๆ

ของสะสม	คำอธิบาย
ข้อมูลการแปลของ Yoo Jun -Hyuk	มันเป็นชุดข้อมูลที่แปลชุดข้อมูลภาษาอังกฤษเป็นเกาหลี
Yoo Jun -Hyuk ข้อมูลการแปล 2 (Magpie)	ชุดข้อมูล MAGPIE ชุดแปลเกาหลี (รูปแบบการแปลของ Nayohan)
songys/huggingface_koreandataset	ณ วันที่ 10 ตุลาคม 2024, Song Young -ข้อมูลเกาหลีของ Sooke ใน HuggingFace
ข้อมูลการแปลของฉันโยฮัน	ชุดข้อมูลที่แปลจากภาษาอังกฤษเป็นเกาหลีโดยใช้ Llama3-Instranstrans-enko-8b`

ชุดข้อมูลการประเมินผล

ชื่อ	-	พิมพ์	รายละเอียด
haerae-hub/kmmlu	243K	MCQA	มาตรฐานการประเมินประสิทธิภาพภาษาเกาหลีใน 45 หัวข้อ
Haetae-Project/Hae-Rae-Bench	1.5k	MCQA	Hae-Rae Bench เป็นชุดข้อมูลมาตรฐานที่ออกแบบมาเพื่อประเมินทักษะภาษาเกาหลี (คำศัพท์ประวัติศาสตร์สามัญสำนึกและการอ่าน) ของแบบจำลองภาษา
haerae-hub/csat-qa	0.9k	MCQA	ปัญหานั่งเกาหลี
Haerae-Hub/K2-Eval	90	รุ่น	สำหรับคำตอบที่ถูกต้องคำสั่งผู้คนหรือ GPT-4 เขียนโดย 90 คนที่ต้องการความรู้เชิงลึกเกี่ยวกับวัฒนธรรมเกาหลี
SEAN0042/KORMEDMCQA	<1K	MCQA	เกณฑ์มาตรฐานการแพทย์เกาหลี
Haerae-hub/เกาหลี-มนุษย์-judgements	<1K	ความชอบของมนุษย์	คำถามคำตอบ A ตอบ B และความชอบของผู้คน
haerae-hub/kudge	2.8K	ความชอบของมนุษย์	5.6K คำอธิบายประกอบของมนุษย์เกาหลี

แพลตฟอร์มการประเมินผล

KO Chatbot Arena Leadboard: กระดานผู้นำที่ผู้คนเปรียบเทียบผลลัพธ์ของ chatbots หลายครั้งและแสดงอัตราต่อรองและคะแนน ELO ของพวกเขา
cordskr/logickor-Leadererboard: รูปแบบภาษาเกาหลี
Tiger LLM Leader Board: Q&A เปิดตัวโดย Wandb, คณะกรรมการผู้นำการประเมินผลของเกาหลี LLM ในรูปแบบมัลติตัน GitHub
KO-RM-Judge: Model รางวัลเพื่อประเมินคำตอบของ chatbot และเปรียบเทียบคะแนน
บอร์ดเกาหลี -Sat-LLM-Leadererboard: การประเมินผลการทดสอบ SAT เกาหลี 10 ปี 10 ปี
KOMT-BENCH: MT Bench Korean