open korean instructions
1.0.0
Open Korea Instruksi adalah repositori yang mengumpulkan set data Insportasi Korea untuk Model Bahasa Belajar.
Selain itu, ada banyak data berbeda yang dibuat dengan menerjemahkan atau menggunakan GPT. Jika Anda memiliki data baru, beri tahu saya dengan PR.
| nama | # | Jenis | Detail |
|---|---|---|---|
| Koalpaca v1.0 | 52k | Lajang | Setelah terjemahan instruksi alpaca |
| Koalpaca v1.1 | 21K | Lajang | Setelah mengumpulkan pertanyaan intelektual, buat jawaban dengan chatgpt |
| Terjemahan Sharegpt Deepl | 620k (singleton) 84K (multiton) | Multiton, singleton | Data Sharegpt yang diterjemahkan ke dalam Deepl |
| Sharegpt-74k-ko | 74k, 55k (Hapus kode) | Multiton | Terjemahkan versi yang dibersihkan dari Sharegpt 90k menggunakan Penerjemah Google |
| Latihan Kochatgpt | 13K | Singleton, Multiton, RM | Setelah mengumpulkan pertanyaan dari dataset pertanyaan Korea, buat jawaban dengan chatgpt |
| Oig-small-chip2-ko | 210k | Lajang | Laion AI's Oig-Smallchip-2 Data Data Bahasa Inggris Terjemahan Google Translate |
| Korquad-chat | 9.6k | Multiton, basis pengetahuan | Konteks Data Korquad V1 (Berita, Paragraf Wikipedia) |
| Airc-keti/kowow | ? | Multiton, basis pengetahuan | Wow (Wizard of Wikipedia) -data yang menerjemahkan data dialog berbasis pengetahuan |
| Counselgpt | Singleton (13K) Multiton (8.7k) | Multiton, singleton | Data konsultasi yang dibuat oleh GPT |
| Evolve-instruct | 37K | Lajang | Data yang dibuat oleh GP setelah meningkatkan instruksi menggunakan EVOL yang diinstruksikan digunakan dalam wizardlm |
| Kullm v2 | 153k | Lajang | Data GPT4ALL, Dolly, Vicuna (Sharegpt) diterjemahkan ke dalam Deepl |
| Nlpai-lab/openAssistant-guanaco-ko | 9.85k | Multiton | Terjemahan Guanaco Korea melalui API Deept |
| psymon/namuwiki_alpaca_dataset | 79k | Lajang | Dataset yang dimodifikasi file wiki wiki agar sesuai dengan Stanford Alpaca Learning |
| Changpt/Ko-Lima-vicuna | 1k | Singleton, multiton (sangat bagian) | Dataset yang diregenerasi data LIMA_VICUNA_FORMAT dalam bahasa Korea menggunakan API GPT4 |
| Taeshahn/Ko-Lima | 1k | Singleton, multiton (sangat bagian) | Lima: Dataset Diterjemahkan ke dalam Data Bahasa Korea dari Less lebih banyak untuk penyelarasan (Zhou et al., 2023) |
| KO-strategiqa | 2.2k (pertanyaan), 9k (dokumen) | QA multi-hop, ya/tidak jenis jawaban pendek | Dataset ini adalah versi Korea dari StrategyQA. Terjemahkan semua pertanyaan dan paragraf dari dataset yang ada menggunakan Deepl. |
| Haerae-Hub/Koinstruct-Base | 52k | Lajang | Alpaca tampaknya terjemahan data. |
| Haerae-Hub/Koinstruct-Qa | 50.3k | Lajang | Saya tidak tahu apa data aslinya. Mungkin ada duplikat dalam data di atas. |
| Kyujinpy/Kopen-Platypus | 24.9k | Lajang | Terjemahan data data garasi-baid/platypus terbuka |
| Ziozzang/Everythinglm-Data-V2-KO | 1k | Lajang | Menerjemahkan semuanya-data-v2 ke dalam deepl |
| Human-Rights-Corpus/HRC/ | 1.5k | Lajang | Corpus Hak Asasi Manusia untuk Model Interaktif Untuk Mengubah Keputusan Komisi Hak Asasi Manusia Nasional Korea dan kasus konseling, perubahan gaya dan tanya jawab dan jawaban, ujian dilakukan dengan mempertimbangkan konteks pasca-perang dan pertanyaan dan jawaban sekali |
| Kyujinpy/Openorca-KO | 21.6k | Lajang | Dataset Diterjemahkan dengan mencicipi sekitar 20.000 dari dataset Openorca |
| Kyujinpy/Kocot_2000 | 2.16k | Lajang | Menggunakan dataset Deepl, terjemahan tentang Kaist-cot. |
| Rlhf-korean-friendly-llm | 2.4K (SFT), 3.8K (RM), 3.6K (RLHF) | Lajang | Kumpulkan berbagai data dan bangun seribu unit set data untuk RLHF |
| JOJO0217/KOREAN_RLHF_DATASET | 107k | Lajang | Ini adalah dataset yang dibangun untuk pembelajaran SFT Model LLM Korea selama Proyek Kerjasama Industri Sungkyunkwan -Akademik. |
| Maywell/ko_hh-rlhf-20k_filtered | 20K | Multiton, Rm | 20K dari dataset HH-RLHF diterjemahkan ke dalam model translasi synatra |
| Squarelike/Openorca-Gugugo-KO | 640K + (dalam terjemahan) | Lajang | Gugugo-Koen-7b-V1.1 |
| Maywell/Ko_Ultrafeedback_binarized | 62k (RM) | Lajang | Ini adalah dataset yang menerjemahkan dan menyempurnakan ultrafeedback_binarized melalui model translasi synatra-7b. |
| Mrbananahuman/kor_ethical_quanswer | 29.1k | Lajang | AI Query Ethical/Unethical untuk Dataset RLHF Learning-Answer |
| Humanf-Markrai/wiki_qa_near_dedup | 138K | Lajang | Data QA yang dibuat oleh Maywell/Wikidata_qa yang dibuat oleh Maywell (Taman Jeonghwan) |
| KAIST-AI/Multilingual-Cot-Collection | 77.2k | Lajang | Koleksi Cot Multilingual Dirilis oleh Kaist, 77.2k Korea |
| Heegyu/pku-saferlhf-ko | 164k (RM) | Lajang | Terjemahan data PKU-Alignment/PKU-SaperLHF |
| Heegyu/hh-rlhf-ko | 113k (RM) | Multiton | Terjemahan data Anthropic/HH-RLHF |
| Heegyu/webgpt_comparanons_ko | 19.6k (RM) | Lajang | OpenAI/WEBGPT_COMPARISONS diterjemahkan ke dalam model |
| Heegyu/glaive-function-calling-v2-ko | 15.2k (panggilan fungsi) | Multiton | Glaiveai/Glaive-Function-Calling-V2 menerjemahkan 15.2k ke dalam chatgpt |
| SquareLike/ko_medical_chat | 3.04k | Multiton | JWJ7140/KO-MEDICAL-CHAT MEDTEXT DAN DATASET CHATDOCTOR Dikonversi ke Dialog Korea melalui GPT3.5 |
| Markrai/Kocommercial-Dataset | 1.44m | Lajang | Mengumpulkan dan memproses kumpulan data yang tersedia secara komersial dan gabungkan |
| Maywell/Kovast | 685k | Multiton | 685k percakapan multiton besar -besaran |
| SJ-DONALD/ORCA-DPO-PAIP-KO | 36K | Lajang | mncai/orca_dpo_pairs_ko, ja-ck/orca-dpo-piirs-ko |
| LCW99/Wikipedia-Korean-20240501-1 Million-QNA | 1m | Singleton QA | Hangul Wikipedia dibagi menjadi jutaan bagian dan menciptakan sejuta tanya jawab |
| Nlp-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k | 196K | Lajang | Dataset diterjemahkan sebagai wizardlm/wizardlm_evol_instruct_v2_196k |
| Haerae-hub/qarv-instruct-100k | 100K | Lajang | Arah yang membutuhkan pengetahuan tentang pasangan jawaban Korea (termasuk bahasa Inggris) |
| Kuotient/orca-math-word-problems-193k-Korean | 193k | Lajang | Terjemahan Microsoft/orca-math-word-problems-200k |
| Kuotient/orca-math-Korean-preferensi | 193k | Singleton (DPO) | Dataset DPO Dibuat Menggunakan Terjemahan Microsoft/Orca-Math-Word-Problems-200k |
| JOJO0217/KOREAN_SAFE_CONVERSATION | 26K | Lajang | SUNGKYUNKWAN University -Data Dialog Setiap Hari Dibangun untuk Industri Perusahaan VAIV -Kerjasama Akademik, dan Dataset untuk Konstruksi Chatbot Alami dan Etis |
| Haerae-hub/k2-feedback | 100K | Lajang | K^2-Feedback mengintegrasikan sutradara yang berspesialisasi dalam budaya dan linguistik Korea berdasarkan koleksi umpan balik, yang dirancang untuk meningkatkan kemampuan evaluasi dalam model Korea. (Catatan: Awalnya, data untuk belajar model Prometheus dapat digunakan untuk belajar dengan hanya membawa 5 output.) |
| Maywell/Kiz_Samples | 24.9k | Lajang | Sampel output model KIQU-70B. |
| Dataset Carrotai/Ko-Instruksi | 7k | Lajang | Dataset Korea berkualitas tinggi dalam bahasa Korea yang digunakan menggunakan model Wizardlm-2-8x22b, Wizardlm: Memberdayakan Model Bahasa Besar untuk mengikuti instruksi yang kompleks |
| Haerae-hub/HR-instruct-math-v0.1 | 30K | Lajang | Data Instruksi Matematika Korea (Versi POC) |
| IKNOW-LAB/QARV-INSTRUCT-KO-MT | 10K | Multiton | Data multiton Haerae-Hub/Qarv-Instruct-KO yang menambahkan 2 percakapan giliran menggunakan GPT-3.5-turbo untuk 10.000 data |
| Iknow-lab/Ko-evol-writing-wiki | 30K | Lajang | Data Penulisan / Menulis Kreatif Dibuat Menggunakan GPT-3.5-Turbo |
| AIHUB RLHF Dataset | SFT (13K), RM (33K), PPO (33K) | Lajang | Data RM berada di peringkat untuk direktur dan lima jawaban. Dalam hal data PPO, hanya ada arahan dan tidak ada jawaban. |
| Beomi/Koalpaca-realqa | 18K | Lajang | Ini adalah dataset untuk pemrosesan bahasa alami Korea berdasarkan dialog pengguna Korea yang sebenarnya dari layanan Chatkoalpaca pada 2023-2024. |
| Koleksi | penjelasan |
|---|---|
| Data terjemahan Yoo Jun -Hyuk | Ini adalah dataset yang menerjemahkan dataset bahasa Inggris ke dalam bahasa Korea. |
| Yoo Jun -Hyuk's Translation Data 2 (Magpie) | Set Data Magpie Terjemahan Korea (Model Terjemahan@Nayohan) |
| Songys/HuggingFace_KoreAndataset | Pada 10 Oktober 2024, set data Korea Song Young -soook di Huggingface |
| Data terjemahan i yohan | Dataset yang diterjemahkan dari bahasa Inggris ke Korea menggunakan llama3-instranstrans-enco-8b` |
| nama | # | Jenis | Detail |
|---|---|---|---|
| Haerae-hub/kmmlu | 243k | McQa | Benchmark Evaluasi Kinerja Bahasa Korea pada 45 topik |
| Haetae-Project/Hae-Rae-Bench | 1.5k | McQa | Hae-rae Bench adalah dataset patokan yang dirancang untuk mengevaluasi keterampilan bahasa Korea (kosa kata, sejarah, akal sehat, dan membaca) model bahasa. |
| Haerae-Hub/CSAT-QA | 0.9k | McQa | Masalah SAT Korea |
| Haerae-Hub/K2-Eval | 90 | generasi | Untuk jawaban yang benar, arahan, orang atau GPT-4, ditulis oleh 90 orang yang membutuhkan pengetahuan mendalam tentang budaya Korea |
| Sean0042/kormedmcqa | <1k | McQa | Benchmark QA Medis Korea |
| Haerae-Hub/Korea-Human-Judgements | <1k | Preferensi manusia | Pertanyaan, Jawaban A, Jawaban B dan Preferensi Rakyat |
| Haerae-Hub/Kudge | 2.8K | Preferensi manusia | 5.6k Anotasi Manusia Korea |