awesome instruction dataset
1.0.0
トレーニング(テキストおよびマルチモーダル)チャットベースのLLMS(GPT-4、CHATGPT、LLAMA、ALPACA)をトレーニングするためのオープンソース命令チューニングデータセットのコレクション。現在、3種類のデータセットが含まれています。
命令チューニング /強化ヒューマンフィードバック(RLHF)データセットからの学習は、ChatGPTなどの指導に従うLLMの重要なコンポーネントです。このレポは、さまざまなLLMでの指導チューニングに使用されるデータセットの包括的なリストを提供することに専念しているため、研究者や開発者がこれらのリソースにアクセスして利用しやすくなります。
LLMSをトレーニングするためのcodebseのリスト:
サイズ:命令チューニングペアの数
舌タグ:
タスクタグ:
Generation-Method:
ファイルの最後に新しいプロジェクトを追加します
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable)BSD 3-ClauseGPT-4-0314CC BY-NC 4.0 CC BY-NC 4.0175 seed taskを書いた人間を使用した修正されたself-instructパイプラインから生成された52Kデータ。text-davinci-003CC BY-NC 4.0 text-davinci-003CC BY-NC 4.0 429 seed taskを備えた修正されたself-instructパイプラインから生成された52Kデータ。text-davinci-00352K命令データは、人間の書面による429 seed taskを使用した修正されたself-instructパイプラインから生成されました。text-davinci-003GPL-3.0 gpt-3.5 、 human generatedCC BY-SA 4.0 gpt-3.5 、 human generatedCC BY-SA 4.0 gpt-3.5 、 human generatedCC BY 4.0 1,616 diverse NLP tasksとその自然言語の定義/指示の大規模なコレクションを作成するためのコミュニティの取り組み。Human generatedApache License 2.0 Apache License 2.0 Apache License 2.0 MIT License GPT-4MIT License Apache License 2.0 GPT-3.5-turboCC BY-NC 4.0 GPT-3.5-turboApache License 2.0text-davinci-002MIT License GPT-4CC BY-NC 4.0CC BY-SA 3.0 Apache License 2.0 GPT-4 、 GPT-3.5CC0 1.0 Universal GPT-3.5CC BY 4.0Anthropic RL-CAI 52BMIT LicenseGPT-3.5Apache License 2.0 CC BY-SA 4.0GPT-4モデルではなくGPT-4モデルによって評価されます)ALPACAプロンプトの3つのモデル(GPT-4、GPT-3.5およびOPT-IML)からのプロンプトは、GPT-4に品質の評価を求めます。著者は、「GPT-4は独自の間違いを特定して修正し、応答の質を正確に判断できる」と考えています。GPT-4CC BY-NC 4.0注:これらのライセンスは商業用途を可能にしますが、帰属、流通、または変更に関するさまざまな要件がある場合があります。商用プロジェクトで使用する前に、各ライセンスの特定の条件を必ず確認してください。
商用利用ライセンス:
Apache License 2.0MIT LicenseBSD 3-Clause LicenseBSD 2-Clause LicenseGNU Lesser General Public License v3.0 (LGPLv3)GNU Affero General Public License v3.0 (AGPLv3)Mozilla Public License 2.0 (MPL-2.0)Eclipse Public License 2.0 (EPL-2.0)Microsoft Public License (Ms-PL)Creative Commons Attribution 4.0 International (CC BY 4.0)Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)zlib LicenseBoost Software License 1.0