open korean instructions
1.0.0
التعليمات الكورية المفتوحة هي مستودع يجمع مجموعات بيانات التعليمات الكورية لتعلم نماذج اللغة.
بالإضافة إلى ذلك ، هناك العديد من البيانات المختلفة التي تم إنشاؤها عن طريق ترجمة أو استخدام GPT. إذا كان لديك بيانات جديدة ، فيرجى إخبارنا مع العلاقات العامة.
| اسم | # | يكتب | التفاصيل |
|---|---|---|---|
| Koalpaca v1.0 | 52 كيلو | أعزب | بعد ترجمة تعليم الألبكة |
| Koalpaca v1.1 | 21k | أعزب | بعد جمع الأسئلة الفكرية ، قم بإنشاء إجابة باستخدام chatgpt |
| ترجمة sharegpt deepl | 620 كيلو (سينجلتون) 84k (Multiton) | Multiton ، Singleton | ترجمات sharegpt إلى Deepl |
| ShareGPT-74K-KO | 74k ، 55k (إزالة الكود) | Multiton | ترجمة الإصدار الذي تم تنظيفه من ShareGPT 90K باستخدام مترجم جوجل |
| ممارسة Kochatgpt | 13k | Singleton ، Multiton ، RM | بعد جمع أسئلة من مجموعات بيانات الأسئلة الكورية ، قم بإنشاء إجابة باستخدام chatgpt |
| OIG-SMALL-CHIP2-KO | 210k | أعزب | Laion AI's OIG-SmallCHIP-2 ترجمة بيانات اللغة الإنجليزية المترجمة |
| Korquad-Chat | 9.6k | Multiton ، قاعدة المعرفة | سياق بيانات Korquad V1 (الأخبار ، فقرة ويكيبيديا) |
| Airc-Keti/Kowow | ؟ | Multiton ، قاعدة المعرفة | واو (معالج ويكيبيديا) -data التي تترجم بيانات الحوار القائمة على المعرفة |
| محامي | سينجلتون (13 كيلو) Multiton (8.7k) | Multiton ، Singleton | بيانات الاستشارة التي أنشأتها GPT |
| تطور البنية | 37K | أعزب | البيانات التي أنشأها GP بعد تعزيز التعليمات باستخدام EVOL-insucted المستخدمة في WizardLM |
| كولم V2 | 153k | أعزب | بيانات GPT4ALL ، Dolly ، Vicuna (ShareGPT) ترجم إلى DEEBL |
| nlpai-lab/openassistant-guanaco-ko | 9.85k | Multiton | الترجمة الكورية لـ Guanaco عبر API Deepl |
| psymon/namuwiki_alpaca_dataset | 79K | أعزب | مجموعة البيانات التي قامت بتعديل ملفات تفريغ ويكي الخشبية لتناسب تعلم ستانفورد الألباكا |
| Changpt/Ko-Lima-Vicuna | 1K | Singleton ، Multiton (جزء للغاية) | مجموعة البيانات التي جددت بيانات LIMA_VICUNA_FORMAT باللغة الكورية باستخدام GPT4 API |
| Taeshahn/Ko-Lima | 1K | Singleton ، Multiton (جزء للغاية) | ليما: مجموعة البيانات المترجمة إلى بيانات اللغة الكورية من Less هي أكثر للمحاذاة (Zhou et al. ، 2023) |
| Ko-Strategyqa | 2.2k (سؤال) ، 9K (وثيقة) | QA متعدد القفاز ، نعم/لا نوع إجابة قصيرة | مجموعة البيانات هذه هي نسخة كورية من strategyqa. ترجمة جميع الأسئلة والفقرات الخاصة بمجموعة البيانات الموجودة باستخدام DEERL. |
| haerae-hub/koinstruct-base | 52 كيلو | أعزب | يبدو أن الألبكة ترجمة للبيانات. |
| Haerae-Hub/Koinstruct-QA | 50.3k | أعزب | لا أعرف ما هي البيانات الأصلية. قد يكون هناك تكرارات في البيانات أعلاه. |
| kyujinpy/kopen-platypus | 24.9K | أعزب | ترجمة بيانات بيانات المرآب/المفتوحة |
| Ziozzang/EverythingLM-Data-V2-Ko | 1K | أعزب | ترجمة كل شيء |
| حقوق الإنسان corpus/hrc/ | 1.5k | أعزب | Corpus حقوق الإنسان للنموذج التفاعلي لتغيير قرار لجنة حقوق الإنسان الوطنية في كوريا وقضية الاستشارة ، وتغيير الأسلوب والإجابة ، يتم إجراء الامتحان في مراعاة سياق ما بعد الحرب وسؤال طلقة واحدة والإجابة بعد تعلم استخدام GPT-3.5-TURBO |
| Kyujinpy/Openorca-Ko | 21.6k | أعزب | مجموعة البيانات المترجمة عن طريق أخذ العينات حوالي 20،000 من مجموعة بيانات Openorca |
| Kyujinpy/Kocot_2000 | 2.16k | أعزب | باستخدام Deepl DataSet ، ترجمة حول Kaist-Cot. |
| RLHF-korean الصديق | 2.4k (SFT) ، 3.8K (RM) ، 3.6K (RLHF) | أعزب | جمع مجموعة متنوعة من البيانات وإنشاء ألف وحدة من مجموعات البيانات لـ RLHF |
| JoJo0217/orirean_rlhf_dataset | 107k | أعزب | هذه مجموعة بيانات تم تصميمها من أجل تعليم SFT Korean LLM خلال مشروع التعاون الأكاديمي لجامعة Sungkyunkwan. |
| Maywell/KO_HH-RLHF-20K_FILLEDER | 20k | Multiton ، RM | 20K من مجموعة بيانات HH-RLHF تترجم إلى نموذج ترجمة synatra |
| Squarelike/Openorca Gugugo-Ko | 640k + (في الترجمة) | أعزب | Gugugo-Koen-7B-V1.1 |
| Maywell/ko_ultrafeedback_binarized | 62k (RM) | أعزب | هذه مجموعة بيانات تترجم وصقلت Ultrafeedback_binarized من خلال نموذج الانتقال synatra-7b. |
| Mrbananahuman/kor_ethical_quanswer | 29.1k | أعزب | استعلام أخلاقي/غير أخلاقي لمجموعة بيانات بيانات التعلم RLHF |
| Humanf-Markrai/Wiki_Qa_Near_Dedup | 138 كيلو | أعزب | بيانات ضمان الجودة التي أدلى بها Maywell/Wikidata_QA الذي صنعته Maywell (Jeonghwan Park) |
| Kaist-AI/جمعية متعددة اللغات | 77.2 كيلو | أعزب | مجموعة متعددة اللغات سرير أصدرتها Kaist ، 77.2 كيلو كوري |
| Heegyu/pku-saferlhf-ko | 164k (RM) | أعزب | PKU-alignment/PKU-SPAPERLHF ترجمة بيانات |
| Heegyu/HH-RLHF-KO | 113K (RM) | Multiton | ترجمة بيانات الإنسان/HH-RLHF |
| heegyu/webgpt_comparisons_ko | 19.6K (RM) | أعزب | Openai/WebGPT_Comparisons يترجم إلى نموذج |
| heegyu/glaive-function-calling-v2-ko | 15.2k (استدعاء الوظيفة) | Multiton | Glaiveai/Glaive-function-Calling-V2 يترجم 15.2 كيلو متر إلى chatgpt |
| SquareLike/Ko_medical_chat | 3.04k | Multiton | JWJ7140/KO-Medical-Chat MedText و ChatDoctor تم تحويلها إلى حوار كوري عبر GPT3.5 |
| Markrai/Kocommercial-dataset | 1.44m | أعزب | جمع ومعالجة مجموعات البيانات المتاحة تجاريا ودمج |
| مايويل/كوفاست | 685k | Multiton | 685k محادثة كورية ضخمة |
| SJ-Donald/orca-dpo-pairs-ko | 36k | أعزب | mncai/orca_dpo_pairs_ko ، ja-ck/orca-dpo-piirs-ko |
| LCW99/Wikipedia-Korean-20240501-1Million-QNA | 1M | Singleton QA | تنقسم Hangul Wikipedia إلى ملايين الأقسام وأنشأت مليون سؤال وجواب |
| nlp-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k | 196k | أعزب | مجموعة البيانات المترجمة على أنها WizardLM/WizardLM_EVOL_INSTRUCT_V2_196K |
| Haerae-Hub/Qarv-instruct-100k | 100 كيلو | أعزب | الاتجاهات التي تتطلب معرفة أزواج كوريا الإجابة (بما في ذلك اللغة الإنجليزية) |
| Kuotient/orca-math-problems-193k-korean | 193 كيلو | أعزب | Microsoft/Orca-Math-Word-Problems-200K Translation |
| kuotient/orca-math-korean reference | 193 كيلو | سينجلتون (DPO) | مجموعة بيانات DPO مصنوعة باستخدام Microsoft/ORCA-Math-Word-Problems-200K |
| JoJo0217/orirean_safe_conversation | 26K | أعزب | جامعة Sungkyunkwan -بيانات كل يوم حوار تم تصميم |
| Haerae-Hub/K2-fedback | 100 كيلو | أعزب | K^2-Feedback يدمج المخرجين المتخصصين في الثقافة واللغويات الكورية بناءً على مجموعة التعليقات ، والتي تم تصميمها لتحسين قدرة التقييم في النموذج الكوري. (ملاحظة: في الأصل ، يمكن استخدام نموذج Prometheus Model للتعلم من خلال جلب 5 مخرجات فقط.) |
| Maywell/Kiz_Samples | 24.9K | أعزب | عينة الإخراج من نموذج KIQU-70B. |
| Carrotai/Ko-instruction-dataset | 7K | أعزب | مجموعة بيانات كورية عالية الجودة باللغة الكورية المستخدمة باستخدام نموذج WizardLM-2-8x22b ، WizardLM: تمكين نماذج اللغة الكبيرة لمتابعة التعليمات المعقدة |
| Haerae-hub/hr-instruct-math-v0.1 | 30K | أعزب | بيانات تعليمات الرياضيات الكورية (إصدار POC) |
| iknow-lab/qarv-instruct-ko-mt | 10K | Multiton | Haerae-Hub/QARV-instruct-KO Multiton Data تضيف محادثات الدوران باستخدام GPT-3.5-TURBO لـ 10000 بيانات |
| iknow-lab/ko-evol writing-wiki | 30K | أعزب | بيانات الكتابة / الكتابة الإبداعية التي تم إنشاؤها باستخدام GPT-3.5 توربو |
| AIHUB RLHF مجموعة بيانات | SFT (13k) ، RM (33k) ، PPO (33k) | أعزب | يتم تصنيف بيانات RM للمديرين وخمس إجابات. في حالة بيانات PPO ، لا يوجد سوى توجيه ولا إجابة. |
| beomi/koalpaca-realqa | 18K | أعزب | إنها مجموعة بيانات لمعالجة اللغة الطبيعية الكورية استنادًا إلى حوار المستخدم الكوري الفعلي لخدمة Chatkoalpaca في 2023-2024. |
| مجموعة | توضيح |
|---|---|
| بيانات ترجمة Yoo Jun -Hyuk | إنها مجموعة بيانات ترجمت مجموعة البيانات الإنجليزية إلى الكورية. |
| بيانات ترجمة Yoo Jun -Hyuk 2 (Magpie) | مجموعة بيانات MAGPIE الترجمة الكورية (نموذج ترجمة@Nayohan) |
| Songys/Huggingface_koreandataset | اعتبارًا من 10 أكتوبر 2024 ، مجموعة بيانات Song Young -Sook's Korean Set في Huggingface |
| بيانات ترجمة يوهان | مجموعات البيانات المترجمة من اللغة الإنجليزية إلى الكورية باستخدام llama3-instranstrans-enko-8b` |
| اسم | # | يكتب | التفاصيل |
|---|---|---|---|
| Haerae-hub/kmmlu | 243k | مكا | معيار تقييم أداء اللغة الكورية في 45 موضوعًا |
| Haetae-project/hae-rae-bench | 1.5k | مكا | Hae-rae Bench هي مجموعة بيانات قياسية مصممة لتقييم المهارات اللغوية الكورية (المفردات ، والتاريخ ، والحس السليم ، والقراءة) لنماذج اللغة. |
| Haerae-Hub/CSAT-QA | 0.9K | مكا | مشكلة السبت الكورية |
| Haerae-Hub/K2-Eval | 90 | جيل | للإجابة الصحيحة ، التوجيه أو الأشخاص أو GPT-4 ، كتبه 90 شخصًا يحتاجون إلى معرفة متعمقة بالثقافة الكورية |
| sean0042/kormedmcqa | <1k | مكا | معيار QA الطبي الكوري |
| Haerae-hub/الكوريات البشرية | <1k | التفضيل البشري | أسئلة ، إجابات ، أجب ب وتفضيلات الناس |
| Haerae-Hub/Kudge | 2.8k | التفضيل البشري | 1.6 كيلو كوري التعليق البشري |