open korean instructions
1.0.0
Open Korean Instructionsは、学習言語モデルのための韓国の器具データセットを収集するリポジトリです。
さらに、GPTを翻訳または使用することにより、多くの異なるデータが作成されています。新しいデータがある場合は、PRでお知らせください。
| 名前 | # | タイプ | 詳細 |
|---|---|---|---|
| Koalpaca v1.0 | 52K | シングル | アルパカ指導の翻訳後 |
| Koalpaca v1.1 | 21k | シングル | 知的質問を収集した後、ChatGptで答えを作成します |
| Sharegpt Deepl翻訳 | 620K(シングルトン) 84K(マルチトン) | マルチトン、シングルトン | sharegptデータをDeeplに翻訳します |
| sharegpt-74k-ko | 74K、55K(コードを削除) | マルチトン | Google翻訳者を使用して、Sharegpt90kのクリーンバージョンを翻訳します |
| Kochatgptの練習 | 13k | シングルトン、マルチトン、RM | 韓国の質問データセットから質問を集めた後、chatgptで答えを作成します |
| oig-small-chip2-ko | 210K | シングル | Laion AiのOIG-Smallchip-2翻訳された英語データGoogle翻訳 |
| Korquad-chat | 9.6k | マルチトン、ナレッジベース | Korquad V1データコンテキスト(ニュース、ウィキペディアの段落) |
| airc-keti/kowow | ? | マルチトン、ナレッジベース | WOW(ウィキペディアのウィザード) - 知識ベースのダイアログデータを翻訳するdata |
| counsergpt | シングルトン(13K) マルチトン(8.7k) | マルチトン、シングルトン | GPTによって作成された相談データ |
| Evolve-Instruct | 37k | シングル | wizardlmで使用されているEvol-Instructedを使用して命令を強化した後にGPによって作成されたデータ |
| Kullm V2 | 153k | シングル | gpt4all、dolly、vicuna(sharegpt)deeplに翻訳されたデータ |
| nlpai-lab/openassistant-guanaco-ko | 9.85k | マルチトン | Deepl APIを介したグアナコの韓国翻訳 |
| PSYMON/NAMUWIKI_ALPACA_DATASET | 79k | シングル | Stanford Alpaca Learningに適合するように木製のWikiダンプファイルを変更したデータセット |
| changpt/ko-lima-vicuna | 1k | シングルトン、マルチトン(非常に部分) | GPT4 APIを使用して韓国語でlima_vicuna_formatデータを再生したデータセット |
| Taeshahn/Ko-lima | 1k | シングルトン、マルチトン(非常に部分) | LIMA:Less Lessの韓国語データに翻訳されたデータセットは、より整合するためのものです(Zhou et al。、2023) |
| Ko-Strategyqa | 2.2K(質問)、9K(ドキュメント) | マルチホップQA、はい/いいえ短い回答タイプ | このデータセットは、StrategyQAの韓国語版です。 deeplを使用して、既存のデータセットのすべての質問と段落を翻訳します。 |
| haerae-hub/koinstruct-base | 52K | シングル | Alpacaはデータの翻訳のようです。 |
| haerae-hub/koinstruct-qa | 50.3k | シングル | 元のデータが何であるかわかりません。上記のデータには重複がある場合があります。 |
| kyujinpy/kopen-platypus | 24.9k | シングル | ガレージ支援/オープンプラタイプデータデータ翻訳 |
| Ziozzang/EverythingLM-Data-V2-Ko | 1k | シングル | EverythingLM-Data-V2をDeeplに翻訳します |
| Human-rights-corpus/hrc/ | 1.5k | シングル | 韓国国家人権委員会の決定とカウンセリングのケース、スタイルの変更と質問と回答の決定を変更するためのインタラクティブモデルインの順序の人権コーパス、試験は、GPT-3.5-ターボを使用した学習後の戦後の文脈とワンショットの質問と回答を考慮して行われます |
| kyujinpy/ofterorca-ko | 21.6k | シングル | オープトルカデータセットから約20,000個のサンプリングによって翻訳されたデータセット |
| kyujinpy/kocot_2000 | 2.16K | シングル | deeplデータセットを使用して、kaist-cotに関する翻訳。 |
| rlhf-korean-frendly-llm | 2.4K(SFT)、3.8K(RM)、3.6K(RLHF) | シングル | さまざまなデータを収集し、RLHF用の1000単位のデータセットを構築する |
| jojo0217/korean_rlhf_dataset | 107k | シングル | これは、Sungkyunkwan University Industry -Academic Cooperation Project中に韓国LLMモデルSFT学習のために構築されたデータセットです。 |
| Maywell/KO_HH-RLHF-20K_FILTERED | 20k | マルチトン、RM | HH-RLHFデータセットの20Kは、シナトラ翻訳モデルに変換されます |
| Squarelike/Opernorca-Gugugo-Ko | 640K +(翻訳中) | シングル | gugugo-koen-7b-v1.1 |
| Maywell/ko_ultrafeedback_binarized | 62K(RM) | シングル | これは、synatra-7b-翻訳モデルを介してultrafeedback_binarizedを翻訳および改良するデータセットです。 |
| Mrbananahuman/kor_ethical_quanswer | 29.1k | シングル | RLHF学習回答データセットのAI倫理/非倫理的クエリ |
| Humanf-markrai/wiki_qa_near_dedup | 138k | シングル | Maywell/Wikidata_qaが作成したQAデータ(Jeonghwan Park) |
| Kaist-ai/多言語コット収集 | 77.2K | シングル | Kaistがリリースした多言語COTコレクション、77.2K Korean |
| heegyu/pku-saferlhf-ko | 164K(RM) | シングル | PKU-Alignment/PKU-Saperlhfデータ翻訳 |
| heegyu/hh-rlhf-ko | 113K(RM) | マルチトン | 人類/HH-RLHFデータ翻訳 |
| heegyu/webgpt_comparisons_ko | 19.6k(RM) | シングル | Openai/webgpt_comparisonsはモデルに変換されます |
| heegyu/glaive-function-calling-v2-ko | 15.2K(関数呼び出し) | マルチトン | glaiveai/glaive-function-calling-v2は15.2kをchatgptに変換します |
| Squarelike/KO_Medical_Chat | 3.04K | マルチトン | jwj7140/ko-medical-chat medtext and chatdoctorデータセットは、GPT3.5を介して韓国の対話に変換されました |
| Markrai/Kocommercial-Dataset | 1.44m | シングル | 市販のデータセットを収集および処理し、マージします |
| Maywell/Kovast | 685k | マルチトン | 685kの大規模なマルチトン韓国の会話 |
| SJ-Donald/orca-dpo-pairs-ko | 36k | シングル | mncai/orca_dpo_pairs_ko、ja-ck/orca-dpo-piirs-ko |
| LCW99/WIKIPEDIA-KOREAN-20240501-1MILLION-QNA | 1m | シングルトンQA | ハングルウィキペディアは何百万ものセクションに分かれており、百万のQ&Aを作成しました |
| nlp-with-deeplearning/ko.wizardlm_evol_instruct_v2_196k | 196k | シングル | wizardlm/wizardlm_evol_instruct_v2_196kとして翻訳されたデータセット |
| haerae-hub/qarv-instruct-100k | 100k | シングル | 韓国回答ペアの知識を必要とする方向(英語を含む) |
| Kuotient/orca-math-word-problems-193k-korean | 193k | シングル | Microsoft/orca-math-word-problems-200k翻訳 |
| kuotient/orca-math-korean-preference | 193k | シングルトン(DPO) | 翻訳されたMicrosoft/orca-math-word-problems-200kを使用して作成されたDPOデータセット |
| jojo0217/korean_safe_conversation | 26k | シングル | Sungkyunkwan University -Vaiv Company Industry用に構築されたEveryday Dialogue Data -Academic Cooperation、およびDataset for Natural and Ethical Chatbot Construction |
| haerae-hub/k2-feedback | 100k | シングル | K^2フィードバックは、韓国モデルの評価能力を向上させるように設計されたフィードバックコレクションに基づいて、韓国文化と言語学を専門とするディレクターを統合します。 (注:元々、Prometheusモデルを学習するためのデータは、5つの出力のみをもたらすことで学習に使用できます。) |
| Maywell/kiz_samples | 24.9k | シングル | KIQU-70Bモデルの出力サンプル。 |
| Carrotai/KO-Instruction-Dataset | 7k | シングル | 韓国語の高品質の韓国データセットwizardlm-2-8x22bモデルを使用して使用されます。 |
| haerae-hub/hr-instruct-math-v0.1 | 30k | シングル | 韓国数学指導データ(POCバージョン) |
| iknow-lab/qarv-instruct-ko-mt | 10k | マルチトン | haerae-hub/qarv-instruct-koマルチトンデータ。10,000データに対してGPT-3.5-ターボを使用して2つのターン会話を追加する |
| ikking-lab/ko-evol-writing-wiki | 30k | シングル | GPT-3.5-ターボを使用して作成された作成 /クリエイティブライティングデータ |
| aihub rlhfデータセット | SFT(13K)、RM(33K)、PPO(33K) | シングル | RMデータは、ディレクターと5つの回答に対してランク付けされています。 PPOデータの場合、指令と回答のみがあります。 |
| Beomi/Koalpaca-realqa | 18k | シングル | これは、2023-2024のChatkoalpacaサービスの実際の韓国のユーザー対話に基づいた韓国の自然言語処理のデータセットです。 |
| コレクション | 説明 |
|---|---|
| Yoo Jun -Hyukの翻訳データ | これは、英語のデータセットを韓国語に翻訳したデータセットです。 |
| Yoo Jun -Hyukの翻訳データ2(Magpie) | MAGPIEデータセット韓国語翻訳(@Nayohanの翻訳モデル) |
| songys/huggingface_koreandataset | 2024年10月10日の時点で、Song Young -Sookの韓国データセットでHuggingface |
| 私はヨハンの翻訳データです | llama3-instranstrans-enko-8b`を使用して、英語から韓国語に翻訳されたデータセット |
| 名前 | # | タイプ | 詳細 |
|---|---|---|---|
| haerae-hub/kmmlu | 243k | MCQA | 45のトピックに関する韓国語のパフォーマンス評価ベンチマーク |
| haetae-project/hae-rae-bench | 1.5k | MCQA | HAE-RAEベンチは、言語モデルの韓国語スキル(語彙、歴史、常識、読書)を評価するために設計されたベンチマークデータセットです。 |
| haerae-hub/csat-qa | 0.9k | MCQA | 韓国のSATの問題 |
| haerae-hub/k2-val | 90 | 世代 | 正解のために、韓国文化に関する詳細な知識を必要とする90人によって書かれた指令、人、またはGPT-4 |
| sean0042/kormedmcqa | <1K | MCQA | 韓国の医療QAベンチマーク |
| haerae-hub/Korean-Human-judgements | <1K | 人間の好み | 質問、回答A、Answer B、および人々の好み |
| haerae-hub/kudge | 2.8k | 人間の好み | 5.6k韓国人の注釈 |