open korean instructions Unduh - open korean instructions Sumber Download

open korean instructions

Kode Sumber AI

1.0.0

Unduh

Instruksi Korea-Korea

Open Korea Instruksi adalah repositori yang mengumpulkan set data Insportasi Korea untuk Model Bahasa Belajar.
Selain itu, ada banyak data berbeda yang dibuat dengan menerjemahkan atau menggunakan GPT. Jika Anda memiliki data baru, beri tahu saya dengan PR.

Pembersihan Data Publik

nama	#	Jenis	Detail
Koalpaca v1.0	52k	Lajang	Setelah terjemahan instruksi alpaca
Koalpaca v1.1	21K	Lajang	Setelah mengumpulkan pertanyaan intelektual, buat jawaban dengan chatgpt
Terjemahan Sharegpt Deepl	620k (singleton) 84K (multiton)	Multiton, singleton	Data Sharegpt yang diterjemahkan ke dalam Deepl
Sharegpt-74k-ko	74k, 55k (Hapus kode)	Multiton	Terjemahkan versi yang dibersihkan dari Sharegpt 90k menggunakan Penerjemah Google
Latihan Kochatgpt	13K	Singleton, Multiton, RM	Setelah mengumpulkan pertanyaan dari dataset pertanyaan Korea, buat jawaban dengan chatgpt
Oig-small-chip2-ko	210k	Lajang	Laion AI's Oig-Smallchip-2 Data Data Bahasa Inggris Terjemahan Google Translate
Korquad-chat	9.6k	Multiton, basis pengetahuan	Konteks Data Korquad V1 (Berita, Paragraf Wikipedia)
Airc-keti/kowow	?	Multiton, basis pengetahuan	Wow (Wizard of Wikipedia) -data yang menerjemahkan data dialog berbasis pengetahuan
Counselgpt	Singleton (13K) Multiton (8.7k)	Multiton, singleton	Data konsultasi yang dibuat oleh GPT
Evolve-instruct	37K	Lajang	Data yang dibuat oleh GP setelah meningkatkan instruksi menggunakan EVOL yang diinstruksikan digunakan dalam wizardlm
Kullm v2	153k	Lajang	Data GPT4ALL, Dolly, Vicuna (Sharegpt) diterjemahkan ke dalam Deepl
Nlpai-lab/openAssistant-guanaco-ko	9.85k	Multiton	Terjemahan Guanaco Korea melalui API Deept
psymon/namuwiki_alpaca_dataset	79k	Lajang	Dataset yang dimodifikasi file wiki wiki agar sesuai dengan Stanford Alpaca Learning
Changpt/Ko-Lima-vicuna	1k	Singleton, multiton (sangat bagian)	Dataset yang diregenerasi data LIMA_VICUNA_FORMAT dalam bahasa Korea menggunakan API GPT4
Taeshahn/Ko-Lima	1k	Singleton, multiton (sangat bagian)	Lima: Dataset Diterjemahkan ke dalam Data Bahasa Korea dari Less lebih banyak untuk penyelarasan (Zhou et al., 2023)
KO-strategiqa	2.2k (pertanyaan), 9k (dokumen)	QA multi-hop, ya/tidak jenis jawaban pendek	Dataset ini adalah versi Korea dari StrategyQA. Terjemahkan semua pertanyaan dan paragraf dari dataset yang ada menggunakan Deepl.
Haerae-Hub/Koinstruct-Base	52k	Lajang	Alpaca tampaknya terjemahan data.
Haerae-Hub/Koinstruct-Qa	50.3k	Lajang	Saya tidak tahu apa data aslinya. Mungkin ada duplikat dalam data di atas.
Kyujinpy/Kopen-Platypus	24.9k	Lajang	Terjemahan data data garasi-baid/platypus terbuka
Ziozzang/Everythinglm-Data-V2-KO	1k	Lajang	Menerjemahkan semuanya-data-v2 ke dalam deepl
Human-Rights-Corpus/HRC/	1.5k	Lajang	Corpus Hak Asasi Manusia untuk Model Interaktif Untuk Mengubah Keputusan Komisi Hak Asasi Manusia Nasional Korea dan kasus konseling, perubahan gaya dan tanya jawab dan jawaban, ujian dilakukan dengan mempertimbangkan konteks pasca-perang dan pertanyaan dan jawaban sekali
Kyujinpy/Openorca-KO	21.6k	Lajang	Dataset Diterjemahkan dengan mencicipi sekitar 20.000 dari dataset Openorca
Kyujinpy/Kocot_2000	2.16k	Lajang	Menggunakan dataset Deepl, terjemahan tentang Kaist-cot.
Rlhf-korean-friendly-llm	2.4K (SFT), 3.8K (RM), 3.6K (RLHF)	Lajang	Kumpulkan berbagai data dan bangun seribu unit set data untuk RLHF
JOJO0217/KOREAN_RLHF_DATASET	107k	Lajang	Ini adalah dataset yang dibangun untuk pembelajaran SFT Model LLM Korea selama Proyek Kerjasama Industri Sungkyunkwan -Akademik.
Maywell/ko_hh-rlhf-20k_filtered	20K	Multiton, Rm	20K dari dataset HH-RLHF diterjemahkan ke dalam model translasi synatra
Squarelike/Openorca-Gugugo-KO	640K + (dalam terjemahan)	Lajang	Gugugo-Koen-7b-V1.1
Maywell/Ko_Ultrafeedback_binarized	62k (RM)	Lajang	Ini adalah dataset yang menerjemahkan dan menyempurnakan ultrafeedback_binarized melalui model translasi synatra-7b.
Mrbananahuman/kor_ethical_quanswer	29.1k	Lajang	AI Query Ethical/Unethical untuk Dataset RLHF Learning-Answer
Humanf-Markrai/wiki_qa_near_dedup	138K	Lajang	Data QA yang dibuat oleh Maywell/Wikidata_qa yang dibuat oleh Maywell (Taman Jeonghwan)
KAIST-AI/Multilingual-Cot-Collection	77.2k	Lajang	Koleksi Cot Multilingual Dirilis oleh Kaist, 77.2k Korea
Heegyu/pku-saferlhf-ko	164k (RM)	Lajang	Terjemahan data PKU-Alignment/PKU-SaperLHF
Heegyu/hh-rlhf-ko	113k (RM)	Multiton	Terjemahan data Anthropic/HH-RLHF
Heegyu/webgpt_comparanons_ko	19.6k (RM)	Lajang	OpenAI/WEBGPT_COMPARISONS diterjemahkan ke dalam model
Heegyu/glaive-function-calling-v2-ko	15.2k (panggilan fungsi)	Multiton	Glaiveai/Glaive-Function-Calling-V2 menerjemahkan 15.2k ke dalam chatgpt
SquareLike/ko_medical_chat	3.04k	Multiton	JWJ7140/KO-MEDICAL-CHAT MEDTEXT DAN DATASET CHATDOCTOR Dikonversi ke Dialog Korea melalui GPT3.5
Markrai/Kocommercial-Dataset	1.44m	Lajang	Mengumpulkan dan memproses kumpulan data yang tersedia secara komersial dan gabungkan
Maywell/Kovast	685k	Multiton	685k percakapan multiton besar -besaran
SJ-DONALD/ORCA-DPO-PAIP-KO	36K	Lajang	mncai/orca_dpo_pairs_ko, ja-ck/orca-dpo-piirs-ko
LCW99/Wikipedia-Korean-20240501-1 Million-QNA	1m	Singleton QA	Hangul Wikipedia dibagi menjadi jutaan bagian dan menciptakan sejuta tanya jawab
Nlp-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k	196K	Lajang	Dataset diterjemahkan sebagai wizardlm/wizardlm_evol_instruct_v2_196k
Haerae-hub/qarv-instruct-100k	100K	Lajang	Arah yang membutuhkan pengetahuan tentang pasangan jawaban Korea (termasuk bahasa Inggris)
Kuotient/orca-math-word-problems-193k-Korean	193k	Lajang	Terjemahan Microsoft/orca-math-word-problems-200k
Kuotient/orca-math-Korean-preferensi	193k	Singleton (DPO)	Dataset DPO Dibuat Menggunakan Terjemahan Microsoft/Orca-Math-Word-Problems-200k
JOJO0217/KOREAN_SAFE_CONVERSATION	26K	Lajang	SUNGKYUNKWAN University -Data Dialog Setiap Hari Dibangun untuk Industri Perusahaan VAIV -Kerjasama Akademik, dan Dataset untuk Konstruksi Chatbot Alami dan Etis
Haerae-hub/k2-feedback	100K	Lajang	K^2-Feedback mengintegrasikan sutradara yang berspesialisasi dalam budaya dan linguistik Korea berdasarkan koleksi umpan balik, yang dirancang untuk meningkatkan kemampuan evaluasi dalam model Korea. (Catatan: Awalnya, data untuk belajar model Prometheus dapat digunakan untuk belajar dengan hanya membawa 5 output.)
Maywell/Kiz_Samples	24.9k	Lajang	Sampel output model KIQU-70B.
Dataset Carrotai/Ko-Instruksi	7k	Lajang	Dataset Korea berkualitas tinggi dalam bahasa Korea yang digunakan menggunakan model Wizardlm-2-8x22b, Wizardlm: Memberdayakan Model Bahasa Besar untuk mengikuti instruksi yang kompleks
Haerae-hub/HR-instruct-math-v0.1	30K	Lajang	Data Instruksi Matematika Korea (Versi POC)
IKNOW-LAB/QARV-INSTRUCT-KO-MT	10K	Multiton	Data multiton Haerae-Hub/Qarv-Instruct-KO yang menambahkan 2 percakapan giliran menggunakan GPT-3.5-turbo untuk 10.000 data
Iknow-lab/Ko-evol-writing-wiki	30K	Lajang	Data Penulisan / Menulis Kreatif Dibuat Menggunakan GPT-3.5-Turbo
AIHUB RLHF Dataset	SFT (13K), RM (33K), PPO (33K)	Lajang	Data RM berada di peringkat untuk direktur dan lima jawaban. Dalam hal data PPO, hanya ada arahan dan tidak ada jawaban.
Beomi/Koalpaca-realqa	18K	Lajang	Ini adalah dataset untuk pemrosesan bahasa alami Korea berdasarkan dialog pengguna Korea yang sebenarnya dari layanan Chatkoalpaca pada 2023-2024.

Koleksi lainnya

Koleksi	penjelasan
Data terjemahan Yoo Jun -Hyuk	Ini adalah dataset yang menerjemahkan dataset bahasa Inggris ke dalam bahasa Korea.
Yoo Jun -Hyuk's Translation Data 2 (Magpie)	Set Data Magpie Terjemahan Korea (Model Terjemahan@Nayohan)
Songys/HuggingFace_KoreAndataset	Pada 10 Oktober 2024, set data Korea Song Young -soook di Huggingface
Data terjemahan i yohan	Dataset yang diterjemahkan dari bahasa Inggris ke Korea menggunakan llama3-instranstrans-enco-8b`

Dataset Evaluasi

nama	#	Jenis	Detail
Haerae-hub/kmmlu	243k	McQa	Benchmark Evaluasi Kinerja Bahasa Korea pada 45 topik
Haetae-Project/Hae-Rae-Bench	1.5k	McQa	Hae-rae Bench adalah dataset patokan yang dirancang untuk mengevaluasi keterampilan bahasa Korea (kosa kata, sejarah, akal sehat, dan membaca) model bahasa.
Haerae-Hub/CSAT-QA	0.9k	McQa	Masalah SAT Korea
Haerae-Hub/K2-Eval	90	generasi	Untuk jawaban yang benar, arahan, orang atau GPT-4, ditulis oleh 90 orang yang membutuhkan pengetahuan mendalam tentang budaya Korea
Sean0042/kormedmcqa	<1k	McQa	Benchmark QA Medis Korea
Haerae-Hub/Korea-Human-Judgements	<1k	Preferensi manusia	Pertanyaan, Jawaban A, Jawaban B dan Preferensi Rakyat
Haerae-Hub/Kudge	2.8K	Preferensi manusia	5.6k Anotasi Manusia Korea

Platform Evaluasi

Ko Chatbot Arena Leaderboard: Papan Pemimpin di mana orang membandingkan hasil beberapa chatbots dan menunjukkan peluang dan skor ELO mereka
Instruktur/Logickor-Leaderboard: Model Bahasa Korea
Dewan Pemimpin Tiger LLM: T&J yang diluncurkan oleh Wandb, Dewan Pemimpin Evaluasi LLM Korea dalam format multiton GitHub
KO-RM-Hakim: Model Hadiah untuk Mengevaluasi Jawaban Chatbot dan Bandingkan Skor
Korea-Sat-Llm-Leaderboard: Evaluasi Uji SAT Korea 10 tahun
Komt-Bench: Mt Bench Korea