open korean instructions
1.0.0
Offenes koreanische Anweisungen ist ein Repository, das koreanische Instrationsdatensätze für Lernsprachenmodelle sammelt.
Darüber hinaus gibt es viele verschiedene Daten, die durch Übersetzen oder Verwendung von GPT erstellt wurden. Wenn Sie neue Daten haben, lassen Sie es mich bitte mit PR wissen.
| Name | # | Typ | Detail |
|---|---|---|---|
| Koalpaca v1.0 | 52k | Einzel | Nach der Übersetzung der Alpaka -Anweisung |
| Koalpaca v1.1 | 21k | Einzel | Erstellen Sie nach dem Sammeln intellektueller Fragen eine Antwort mit ChatGPT |
| Sharegpt Deeptl Translation | 620k (Singleton) 84K (Multiton) | Multiton, Singleton | Übersetzte Sharegpt -Daten in Deepl |
| Sharegpt-74K-ko | 74k, 55k (Code entfernen) | Multiton | Übersetzen Sie die gereinigte Version des Sharegpt 90K mit einem Google -Übersetzer |
| Kochatgpt Praxis | 13k | Singleton, Multiton, RM | Erstellen Sie nach dem Sammeln von Fragen aus koreanischen Fragen Datensätze eine Antwort mit ChatGPT |
| Oig-small-chip2-ko | 210k | Einzel | Laion Ai's OIG-Smallchip-2 Übersetzte englische Daten Google Translate |
| Korquad-Chat | 9,6K | Multiton, Wissensbasis | Korquad V1 Datenkontext (Nachrichten, Wikipedia -Absatz) |
| Airc-Keti/Kowow | ? | Multiton, Wissensbasis | Wow (Assistent von Wikipedia) -Data, der kenntnisbasierte Dialogdaten übersetzt |
| Counselgpt | Singleton (13k) Multiton (8,7K) | Multiton, Singleton | Beratungsdaten, die von GPT erstellt wurden |
| Sich entwickeln | 37k | Einzel | Daten, die von GP erstellt wurden, nachdem der Befehl mit dem in Assistenten verwendeten EVOL-nicht-in-strukturierten Anweisungen verbessert wurde |
| Kullm v2 | 153K | Einzel | GPT4ALL, Dolly, Vicuna (Sharegpt) -Daten, übersetzt in Deepl |
| NLPAI-LAB/OpenSectant-Guanaco-Ko | 9,85K | Multiton | Koreanische Übersetzung von Guanaco über die tiefe API |
| psymon/namuwiki_alpaca_dataset | 79k | Einzel | Datensatz, der Holz -Wiki -Dump -Dateien modifizierte, um das Stanford Alpaca -Lernen anzupassen |
| Changpt/Ko-lima-vicuna | 1k | Singleton, Multiton (extrem Teil) | Datensatz, der Lima_vicuna_Format -Daten auf Koreanisch mit der GPT4 -API regenerierte |
| Taeshahn/Ko-Lima | 1k | Singleton, Multiton (extrem Teil) | LIMA: Datensatz, das in koreanische Sprachdaten von weniger übersetzt wurde, ist mehr für die Ausrichtung (Zhou et al., 2023) |
| Ko-Strategyqa | 2,2K (Frage), 9k (Dokument) | Multi-Hop-QA, Ja/Nein Kurzer Antworttyp | Dieser Datensatz ist eine koreanische Version von StrategyQA. Übersetzen Sie alle Fragen und Absätze des vorhandenen Datensatzes mit Deeptl. |
| Haerae-Hub/Koinstruct-Base | 52k | Einzel | Alpaka scheint die Übersetzung von Daten zu sein. |
| Haerae-Hub/Koinstruct-Qa | 50,3k | Einzel | Ich weiß nicht, was die Originaldaten sind. In den oben genannten Daten können Duplikate vorhanden sein. |
| kyujinpy/kopen-platypus | 24,9k | Einzel | Übersetzung von Garage-Baid/Open-Platypus-Datendatendaten |
| Ziozzang/alleslm-data-v2-ko | 1k | Einzel | Übersetzen Sie alles, data-v2 |
| Menschenrechts-Corpus/HRC/ | 1,5K | Einzel | Human Rights Corpus für interaktives Modell-in-Ordnung, um die Entscheidung der Korea National Human Rights Commission und des Beratungsfalls, der Stiländerung, der Frage und der Antwort, die Prüfung zu ändern, wird unter Berücksichtigung des Nachkriegskontexts und der One-Shot-Frage und der Antwort nach dem Lernen mit GPT-3.5-Turbo durchgeführt |
| Kyujinpy/Openorca-ko | 21,6K | Einzel | Datensatz übersetzt durch Abtastung von etwa 20.000 aus dem Openorca -Datensatz |
| Kyujinpy/Kocot_2000 | 2.16K | Einzel | Verwenden von Deeptl Dataset, Übersetzung über Kaist-Cot. |
| Rlhf-korean-freundlich-llm | 2,4 K (SFT), 3,8 K (RM), 3,6K (RLHF) | Einzel | Sammeln Sie eine Vielzahl von Daten und erstellen Sie tausend Einheiten von Datensätzen für RLHF |
| Jojo0217/korean_rlhf_dataset | 107K | Einzel | Dies ist ein Datensatz, der für das koreanische LLM Model SFT -Lernen während des Branchenprojekts der Sungkyunkwan University -Industrie gebaut wurde. |
| Maywell/KO_HH-RLHF-20K_FILTERED | 20k | Multiton, RM | 20K des HH-RLHF-Datensatzes übersetzt in das Synatra-Translationsmodell |
| Quadratik/OpenORCA-GUGUGO-Ko | 640k + (in der Übersetzung) | Einzel | Gugugo-Koen-7b-V1.1 |
| Maywell/ko_ultrafeedback_binarized | 62k (RM) | Einzel | Dies ist ein Datensatz, der das über das Synatra-7b-Translationsmodell übersetzt und verfeinert hat. |
| Mrbananahuman/kor_ethical_quanswer | 29.1k | Einzel | Ai ethische/unethische Abfrage für RLHF-Lerndatensatz |
| Humanf-markrai/wiki_qa_near_dedup | 138K | Einzel | QA -Daten von Maywell/Wikidata_QA von Maywell (Jeonghwan Park) gemacht |
| Kaist-AI/Mehrsprachige Sammelsammlung | 77,2K | Einzel | Mehrsprachige COT -Kollektion von Kaist, 77,2k Koreanisch |
| HEEGYU/PKU-SAFERLHF-KO | 164K (RM) | Einzel | PKU-Alignment/PKU-aperlHF-Datenübersetzung |
| HEEGYU/HH-RLHF-KO | 113K (RM) | Multiton | Anthropic/HH-RLHF-Datenübersetzung |
| HEEGYU/webgpt_comparisons_ko | 19,6K (RM) | Einzel | OpenAI/webgpt_comparisons übersetzt in ein Modell |
| Heegyu/Glaive-Funktions-Calling-V2-Ko | 15.2k (Funktionsaufruf) | Multiton | GlaiveAI/Glaive-Funktion-Calling-V2 übersetzt 15,2 K in Chatgpt |
| Quadratisch/ko_medical_chat | 3.04k | Multiton | JWJ7140/Ko-Medical-Chat-Medtext- und ChatDoctor-Datensatz über GPT3.5 in den koreanischen Dialog konvertiert |
| Markrai/Kocommercial-Dataset | 1,44 m | Einzel | Sammeln und verarbeiten im Handel erhältliche Datensätze und verschmelzen |
| Maywell/Kovast | 685k | Multiton | 685K massives Multiton Koreanische Gespräch |
| Sj-donald/orca-dpo-pair-ko | 36k | Einzel | mncai/orca_dpo_pairs_ko, ja-ck/orca-dpo-piirs-ko |
| LCW99/Wikipedia-Korean-20240501-1Million-QNA | 1m | Singleton QA | Hangul Wikipedia ist in Millionen von Abschnitten unterteilt und hat eine Million Q & A erstellt |
| NLP-with-Deeplearning/Ko.Wizardlm_evol_instruct_v2_196K | 196K | Einzel | Datensatz als Assistent/Assistent/Assistent |
| Haerae-Hub/Qarv-Instruct-100K | 100k | Einzel | Anweisungen, die Kenntnisse über Korea-Answer-Paare erfordern (einschließlich Englisch) |
| Kuotient/Orca-Math-Wort-Problems-193K-Korean | 193k | Einzel | Microsoft/Orca-Math-Wort-Probleme-200k-Übersetzung |
| Kuotient/Orca-Math-Korean-Präferenz | 193k | Singleton (DPO) | DPO-Datensatz erstellt mit übersetzten Microsoft/Orca-Math-Word-Problems-200k |
| Jojo0217/korean_safe_conversation | 26K | Einzel | Sungkyunkwan University -Tag -Tag -Dialogdaten, die für die Industrie der VAIV -Firma gebaut wurden -Akademische Zusammenarbeit und Datensatz für natürliche und ethische Chatbot -Konstruktion |
| Haerae-Hub/K2-Feedback | 100k | Einzel | K^2-Feedback integriert Direktoren, die auf koreanische Kultur und Linguistik spezialisiert sind, basierend auf der Feedback-Sammlung, die die Bewertungsfähigkeit im koreanischen Modell verbessern soll. (HINWEIS: Ursprünglich können die Daten zum Lernen von Prometheus -Modell zum Lernen verwendet werden, indem nur 5 Ausgänge mitgebracht werden.) |
| Maywell/kiz_samples | 24,9k | Einzel | Ausgangsprobe des Kiqu-70b-Modells. |
| Karotik/Ko-Unternehmerdataset | 7k | Einzel | Hochwertiger koreanischer Datensatz in Koreanisch, der mit dem Assistentlm-2-8x22B-Modell, Assistent, verwendet wird, befähigt große Sprachmodelle, komplexe Anweisungen zu befolgen |
| Haerae-Hub/HR-Instruct-Math-V0.1 | 30k | Einzel | Daten der koreanischen Mathematikanweisungen (POC -Version) |
| IKNE-LAB/QARV-INSTRUCT-KO-MT | 10k | Multiton | Haerae-Hub/Qarv-Instruct-KO-Multiton-Daten, die 2 Konversationen mit GPT-3,5-Turbo für 10.000 Daten hinzufügen |
| IKNE-LAB/KO-EVOL-Writing-Wiki | 30k | Einzel | Daten schreiben / kreatives Schreiben, die mit GPT-3.5-Turbo erstellt wurden |
| AIHUB RLHF -Datensatz | SFT (13K), RM (33K), PPO (33K) | Einzel | RM -Daten werden für Direktoren und fünf Antworten eingestuft. Bei PPO -Daten gibt es nur eine Richtlinie und keine Antwort. |
| Beomi/Koalpaca-realqa | 18k | Einzel | Es ist ein Datensatz für die koreanische Verarbeitung natürlicher Sprache, basierend auf dem tatsächlichen koreanischen Benutzerdialog des Chatkoalpaca-Dienstes im Jahr 2023-2024. |
| Sammlung | Erläuterung |
|---|---|
| Yoo Jun -Hyuks Übersetzungsdaten | Es ist ein Datensatz, der den englischen Datensatz in Koreanisch übersetzt hat. |
| Yoo Jun -Hyuks Übersetzungsdaten 2 (Magpie) | Magpie Data Set Koreanische Übersetzung (@Nayohans Übersetzungsmodell) |
| Songys/Huggingface_Koreandataset | Zum 10. Oktober 2024, Song Young -Sooks koreanischer Datensatz in Huggingface |
| I Yohans Übersetzungsdaten | Datensätze, die mit LLAMA3-Instranstrans-Enko-8b 'von Englisch in Koreanisch übersetzt wurden |
| Name | # | Typ | Detail |
|---|---|---|---|
| Haerae-Hub/kmmlu | 243K | MCQA | Koreanische Sprachleistung Bewertung Benchmark zu 45 Themen |
| Haetae-Project/Hae-Rae-Bench | 1,5K | MCQA | Hae-Rae Bench ist ein Benchmark-Datensatz, mit dem koreanische Sprachkenntnisse (Wortschatz, Geschichte, gesunder Menschenverstand und Lesen) von Sprachmodellen bewertet werden sollen. |
| Haerae-Hub/Csat-Qa | 0,9k | MCQA | Koreanisch saß Problem |
| Haerae-Hub/K2-Eval | 90 | Generation | Für die richtige Antwort, die Richtlinie, die Menschen oder die GPT-4, geschrieben von 90 Personen, die eingehendes Wissen über die koreanische Kultur benötigen |
| SEAN0042/CORMEDMCQA | <1k | MCQA | Koreanische medizinische QA -Benchmark |
| Haerae-Hub/Koreanisch-Human-Urteilsvermögen | <1k | Menschliche Präferenz | Fragen, Antworten A, Beantworten Sie B und die Vorlieben der Menschen |
| Haerae-Hub/Kudge | 2,8K | Menschliche Präferenz | 5.6K Koreanische menschliche Annotation |