open korean instructions تنزيل - open korean instructions رمز المصدر تنزيل

open korean instructions

كود الذكاء الاصطناعي

1.0.0

تنزيل

المفتوح الكوري-instructions

التعليمات الكورية المفتوحة هي مستودع يجمع مجموعات بيانات التعليمات الكورية لتعلم نماذج اللغة.
بالإضافة إلى ذلك ، هناك العديد من البيانات المختلفة التي تم إنشاؤها عن طريق ترجمة أو استخدام GPT. إذا كان لديك بيانات جديدة ، فيرجى إخبارنا مع العلاقات العامة.

تنظيف البيانات العامة

اسم	#	يكتب	التفاصيل
Koalpaca v1.0	52 كيلو	أعزب	بعد ترجمة تعليم الألبكة
Koalpaca v1.1	21k	أعزب	بعد جمع الأسئلة الفكرية ، قم بإنشاء إجابة باستخدام chatgpt
ترجمة sharegpt deepl	620 كيلو (سينجلتون) 84k (Multiton)	Multiton ، Singleton	ترجمات sharegpt إلى Deepl
ShareGPT-74K-KO	74k ، 55k (إزالة الكود)	Multiton	ترجمة الإصدار الذي تم تنظيفه من ShareGPT 90K باستخدام مترجم جوجل
ممارسة Kochatgpt	13k	Singleton ، Multiton ، RM	بعد جمع أسئلة من مجموعات بيانات الأسئلة الكورية ، قم بإنشاء إجابة باستخدام chatgpt
OIG-SMALL-CHIP2-KO	210k	أعزب	Laion AI's OIG-SmallCHIP-2 ترجمة بيانات اللغة الإنجليزية المترجمة
Korquad-Chat	9.6k	Multiton ، قاعدة المعرفة	سياق بيانات Korquad V1 (الأخبار ، فقرة ويكيبيديا)
Airc-Keti/Kowow	؟	Multiton ، قاعدة المعرفة	واو (معالج ويكيبيديا) -data التي تترجم بيانات الحوار القائمة على المعرفة
محامي	سينجلتون (13 كيلو) Multiton (8.7k)	Multiton ، Singleton	بيانات الاستشارة التي أنشأتها GPT
تطور البنية	37K	أعزب	البيانات التي أنشأها GP بعد تعزيز التعليمات باستخدام EVOL-insucted المستخدمة في WizardLM
كولم V2	153k	أعزب	بيانات GPT4ALL ، Dolly ، Vicuna (ShareGPT) ترجم إلى DEEBL
nlpai-lab/openassistant-guanaco-ko	9.85k	Multiton	الترجمة الكورية لـ Guanaco عبر API Deepl
psymon/namuwiki_alpaca_dataset	79K	أعزب	مجموعة البيانات التي قامت بتعديل ملفات تفريغ ويكي الخشبية لتناسب تعلم ستانفورد الألباكا
Changpt/Ko-Lima-Vicuna	1K	Singleton ، Multiton (جزء للغاية)	مجموعة البيانات التي جددت بيانات LIMA_VICUNA_FORMAT باللغة الكورية باستخدام GPT4 API
Taeshahn/Ko-Lima	1K	Singleton ، Multiton (جزء للغاية)	ليما: مجموعة البيانات المترجمة إلى بيانات اللغة الكورية من Less هي أكثر للمحاذاة (Zhou et al. ، 2023)
Ko-Strategyqa	2.2k (سؤال) ، 9K (وثيقة)	QA متعدد القفاز ، نعم/لا نوع إجابة قصيرة	مجموعة البيانات هذه هي نسخة كورية من strategyqa. ترجمة جميع الأسئلة والفقرات الخاصة بمجموعة البيانات الموجودة باستخدام DEERL.
haerae-hub/koinstruct-base	52 كيلو	أعزب	يبدو أن الألبكة ترجمة للبيانات.
Haerae-Hub/Koinstruct-QA	50.3k	أعزب	لا أعرف ما هي البيانات الأصلية. قد يكون هناك تكرارات في البيانات أعلاه.
kyujinpy/kopen-platypus	24.9K	أعزب	ترجمة بيانات بيانات المرآب/المفتوحة
Ziozzang/EverythingLM-Data-V2-Ko	1K	أعزب	ترجمة كل شيء
حقوق الإنسان corpus/hrc/	1.5k	أعزب	Corpus حقوق الإنسان للنموذج التفاعلي لتغيير قرار لجنة حقوق الإنسان الوطنية في كوريا وقضية الاستشارة ، وتغيير الأسلوب والإجابة ، يتم إجراء الامتحان في مراعاة سياق ما بعد الحرب وسؤال طلقة واحدة والإجابة بعد تعلم استخدام GPT-3.5-TURBO
Kyujinpy/Openorca-Ko	21.6k	أعزب	مجموعة البيانات المترجمة عن طريق أخذ العينات حوالي 20،000 من مجموعة بيانات Openorca
Kyujinpy/Kocot_2000	2.16k	أعزب	باستخدام Deepl DataSet ، ترجمة حول Kaist-Cot.
RLHF-korean الصديق	2.4k (SFT) ، 3.8K (RM) ، 3.6K (RLHF)	أعزب	جمع مجموعة متنوعة من البيانات وإنشاء ألف وحدة من مجموعات البيانات لـ RLHF
JoJo0217/orirean_rlhf_dataset	107k	أعزب	هذه مجموعة بيانات تم تصميمها من أجل تعليم SFT Korean LLM خلال مشروع التعاون الأكاديمي لجامعة Sungkyunkwan.
Maywell/KO_HH-RLHF-20K_FILLEDER	20k	Multiton ، RM	20K من مجموعة بيانات HH-RLHF تترجم إلى نموذج ترجمة synatra
Squarelike/Openorca Gugugo-Ko	640k + (في الترجمة)	أعزب	Gugugo-Koen-7B-V1.1
Maywell/ko_ultrafeedback_binarized	62k (RM)	أعزب	هذه مجموعة بيانات تترجم وصقلت Ultrafeedback_binarized من خلال نموذج الانتقال synatra-7b.
Mrbananahuman/kor_ethical_quanswer	29.1k	أعزب	استعلام أخلاقي/غير أخلاقي لمجموعة بيانات بيانات التعلم RLHF
Humanf-Markrai/Wiki_Qa_Near_Dedup	138 كيلو	أعزب	بيانات ضمان الجودة التي أدلى بها Maywell/Wikidata_QA الذي صنعته Maywell (Jeonghwan Park)
Kaist-AI/جمعية متعددة اللغات	77.2 كيلو	أعزب	مجموعة متعددة اللغات سرير أصدرتها Kaist ، 77.2 كيلو كوري
Heegyu/pku-saferlhf-ko	164k (RM)	أعزب	PKU-alignment/PKU-SPAPERLHF ترجمة بيانات
Heegyu/HH-RLHF-KO	113K (RM)	Multiton	ترجمة بيانات الإنسان/HH-RLHF
heegyu/webgpt_comparisons_ko	19.6K (RM)	أعزب	Openai/WebGPT_Comparisons يترجم إلى نموذج
heegyu/glaive-function-calling-v2-ko	15.2k (استدعاء الوظيفة)	Multiton	Glaiveai/Glaive-function-Calling-V2 يترجم 15.2 كيلو متر إلى chatgpt
SquareLike/Ko_medical_chat	3.04k	Multiton	JWJ7140/KO-Medical-Chat MedText و ChatDoctor تم تحويلها إلى حوار كوري عبر GPT3.5
Markrai/Kocommercial-dataset	1.44m	أعزب	جمع ومعالجة مجموعات البيانات المتاحة تجاريا ودمج
مايويل/كوفاست	685k	Multiton	685k محادثة كورية ضخمة
SJ-Donald/orca-dpo-pairs-ko	36k	أعزب	mncai/orca_dpo_pairs_ko ، ja-ck/orca-dpo-piirs-ko
LCW99/Wikipedia-Korean-20240501-1Million-QNA	1M	Singleton QA	تنقسم Hangul Wikipedia إلى ملايين الأقسام وأنشأت مليون سؤال وجواب
nlp-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k	196k	أعزب	مجموعة البيانات المترجمة على أنها WizardLM/WizardLM_EVOL_INSTRUCT_V2_196K
Haerae-Hub/Qarv-instruct-100k	100 كيلو	أعزب	الاتجاهات التي تتطلب معرفة أزواج كوريا الإجابة (بما في ذلك اللغة الإنجليزية)
Kuotient/orca-math-problems-193k-korean	193 كيلو	أعزب	Microsoft/Orca-Math-Word-Problems-200K Translation
kuotient/orca-math-korean reference	193 كيلو	سينجلتون (DPO)	مجموعة بيانات DPO مصنوعة باستخدام Microsoft/ORCA-Math-Word-Problems-200K
JoJo0217/orirean_safe_conversation	26K	أعزب	جامعة Sungkyunkwan -بيانات كل يوم حوار تم تصميم
Haerae-Hub/K2-fedback	100 كيلو	أعزب	K^2-Feedback يدمج المخرجين المتخصصين في الثقافة واللغويات الكورية بناءً على مجموعة التعليقات ، والتي تم تصميمها لتحسين قدرة التقييم في النموذج الكوري. (ملاحظة: في الأصل ، يمكن استخدام نموذج Prometheus Model للتعلم من خلال جلب 5 مخرجات فقط.)
Maywell/Kiz_Samples	24.9K	أعزب	عينة الإخراج من نموذج KIQU-70B.
Carrotai/Ko-instruction-dataset	7K	أعزب	مجموعة بيانات كورية عالية الجودة باللغة الكورية المستخدمة باستخدام نموذج WizardLM-2-8x22b ، WizardLM: تمكين نماذج اللغة الكبيرة لمتابعة التعليمات المعقدة
Haerae-hub/hr-instruct-math-v0.1	30K	أعزب	بيانات تعليمات الرياضيات الكورية (إصدار POC)
iknow-lab/qarv-instruct-ko-mt	10K	Multiton	Haerae-Hub/QARV-instruct-KO Multiton Data تضيف محادثات الدوران باستخدام GPT-3.5-TURBO لـ 10000 بيانات
iknow-lab/ko-evol writing-wiki	30K	أعزب	بيانات الكتابة / الكتابة الإبداعية التي تم إنشاؤها باستخدام GPT-3.5 توربو
AIHUB RLHF مجموعة بيانات	SFT (13k) ، RM (33k) ، PPO (33k)	أعزب	يتم تصنيف بيانات RM للمديرين وخمس إجابات. في حالة بيانات PPO ، لا يوجد سوى توجيه ولا إجابة.
beomi/koalpaca-realqa	18K	أعزب	إنها مجموعة بيانات لمعالجة اللغة الطبيعية الكورية استنادًا إلى حوار المستخدم الكوري الفعلي لخدمة Chatkoalpaca في 2023-2024.

مجموعات أخرى

مجموعة	توضيح
بيانات ترجمة Yoo Jun -Hyuk	إنها مجموعة بيانات ترجمت مجموعة البيانات الإنجليزية إلى الكورية.
بيانات ترجمة Yoo Jun -Hyuk 2 (Magpie)	مجموعة بيانات MAGPIE الترجمة الكورية (نموذج ترجمة@Nayohan)
Songys/Huggingface_koreandataset	اعتبارًا من 10 أكتوبر 2024 ، مجموعة بيانات Song Young -Sook's Korean Set في Huggingface
بيانات ترجمة يوهان	مجموعات البيانات المترجمة من اللغة الإنجليزية إلى الكورية باستخدام llama3-instranstrans-enko-8b`

مجموعة بيانات التقييم

اسم	#	يكتب	التفاصيل
Haerae-hub/kmmlu	243k	مكا	معيار تقييم أداء اللغة الكورية في 45 موضوعًا
Haetae-project/hae-rae-bench	1.5k	مكا	Hae-rae Bench هي مجموعة بيانات قياسية مصممة لتقييم المهارات اللغوية الكورية (المفردات ، والتاريخ ، والحس السليم ، والقراءة) لنماذج اللغة.
Haerae-Hub/CSAT-QA	0.9K	مكا	مشكلة السبت الكورية
Haerae-Hub/K2-Eval	90	جيل	للإجابة الصحيحة ، التوجيه أو الأشخاص أو GPT-4 ، كتبه 90 شخصًا يحتاجون إلى معرفة متعمقة بالثقافة الكورية
sean0042/kormedmcqa	<1k	مكا	معيار QA الطبي الكوري
Haerae-hub/الكوريات البشرية	<1k	التفضيل البشري	أسئلة ، إجابات ، أجب ب وتفضيلات الناس
Haerae-Hub/Kudge	2.8k	التفضيل البشري	1.6 كيلو كوري التعليق البشري

منصة التقييم

KO Chatbot Arena Leaderboard: لوحة قادة حيث يقارن الناس نتائج chatbots متعددة وإظهار علاماتهم ودرجات ELO
instructkr/logickor-leaderboard: نموذج اللغة الكورية
مجلس إدارة Tiger LLM: أسئلة وأجوبة كشف النقاب عن WANDB ، مجلس إدارة التقييم الكوري LLM في شكل Multiton Github
القضاة KO-RM: نموذج مكافأة لتقييم إجابة chatbot ومقارنة النتيجة
لوحة الكورية السات
Komt-Bench: MT Corean Corean