chinese instruction datasets for llms
1.0.0
誰もがChatGptを愛していますが、そのようなモデルをトレーニングする能力を持っている大規模なテクノロジー企業や研究所はほんのわずかです。最近、オープンソースコミュニティでは自己インストラクティブなアプローチが人気があります。指示/ChatGPTを介して命令データセットを作成し、その後、小規模LLMS(Llama 7Bなど)で微調整します。典型的な仕事の1つは、スタンフォードアルパカです。
現在、オープンソースの命令データセットは非常に少なく、主に英語です。数少ない中国の指導データセットも英語のデータセットに翻訳されています。ただし、CHATGPTに対する全員の強い需要を考慮すると、将来、ますます大規模な中国の指導データセットが表示されると考えています。
このプロジェクトの目的は、中国の指導データセットを収集して、誰もがより便利に微調整中国のLLMを微調整できるようにすることを目的としています。
| データセット | サイズ | 説明 | ソース |
|---|---|---|---|
| グアナコデータセット | 27808 | 多言語命令データセット、スケールは92530に更新されます | グアナコ |
| alpaca_chinese_dataset | 更新 | 機械の翻訳 +アルパカデータセットの手動検証といくつかのダイアログデータを補完する | スタンフォードアルパカ |
| アルパカ・チネーゼ・ダタセット | 20465 | アルパカデータセットの機械翻訳 | スタンフォードアルパカ |
| 中国アルパカ・ロラ | 更新 | Alpacaデータセットは機械翻訳されています。翻訳モデルはGPT-3.5ターボであり、将来的にはGuanacoデータセットと組み合わされます。 | スタンフォードアルパカ |
| gpt-4-llm | 52K | Alpaca Dataset ProptはChatGPTを使用して翻訳され、GPT-4を使用して中国の応答が取得されます。 | スタンフォードアルパカ |
| bellegroup/train_0.5m_cn | 0.5m | 著者によって作成された中国の種子プロンプト、Text-Davinci-003を使用して応答を得る | ベル |
| bellegroup/train_1m_cn | 1m | 中国の種子プロップは上記と同じです。 Text-Davinci-003を使用して応答が得られます。 0.5mのデータセットと比較して、著者はデータをクリーニングしました。GPT GPT模型データが削除されました。 | ベル |
| bellegroup/school_math_0.25m | 0.25m | chatgptによって生成された問題解決プロセスを含む中国の数学の問題データ | ベル |
| bellegroup/multiturn_chat_0.8m | 0.8m | chatgptによって生成されたユーザーとアシスタントの間の複数のラウンドの会話 | ベル |
| bellegroup/generated_chat_0.4m | 0.4m | chatgptによって生成された役割の導入を含むパーソナライズされた役割ダイアログデータ | ベル |
| bellegroup/train_2m_cn | 2m | ChatGptによって生成された中国の指導データ | ベル |