awesome instruction dataset
1.0.0
開源指令調諧數據集的集合,以訓練基於聊天的LLM(GPT-4,Chatgpt,Llama,Llama,aspaca)。我們目前包括三種類型的數據集:
從人類反饋(RLHF)數據集中進行的指令調整 /加固學習是指導關注LLMS(例如ChatGpt)的關鍵組成部分。該倉庫致力於提供各種LLM中用於指導調整的數據集的全面列表,從而使研究人員和開發人員更容易訪問和利用這些資源。
培訓您的LLM的代碼列表:
尺寸:指令調整對的數量
lingual-tags:
任務標籤:
生成方法:
在文件末尾附加新項目
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable)BSD 3-ClauseGPT-4-0314CC BY-NC 4.0 CC BY-NC 4.0175 seed task由修改的self-instruct管道產生的52K數據。text-davinci-003CC BY-NC 4.0 text-davinci-003CC BY-NC 4.0 429 seed task由修改的self-instruct管道產生的52K數據。text-davinci-003429 seed task由修改的self-instruct管道生成的52K指令數據。text-davinci-003GPL-3.0 gpt-3.5 , human generatedCC BY-SA 4.0 gpt-3.5 , human generatedCC BY-SA 4.0 gpt-3.5 , human generatedCC BY 4.0 1,616 diverse NLP tasks及其自然語言定義/說明。Human generatedApache License 2.0 Apache License 2.0 Apache License 2.0 MIT License GPT-4MIT License Apache License 2.0 GPT-3.5-turboCC BY-NC 4.0 GPT-3.5-turboApache License 2.0text-davinci-002MIT License GPT-4CC BY-NC 4.0CC BY-SA 3.0 Apache License 2.0 GPT-4 , GPT-3.5CC0 1.0 Universal GPT-3.5CC BY 4.0Anthropic RL-CAI 52BMIT LicenseGPT-3.5Apache License 2.0 CC BY-SA 4.0GPT-4評分質量來評估三種型號(GPT-4,GPT-3.5和OPT-IML)的羊駝提示(GPT-4模型不是人類)的排名響應(注意:數據。作者認為“ GPT-4能夠識別和解決自己的錯誤,並準確判斷響應質量”GPT-4CC BY-NC 4.0注意:儘管這些許可證允許商業使用,但它們可能對歸因,分發或修改有不同的要求。在商業項目中使用該許可之前,請務必查看每個許可證的具體條款。
商業使用許可證:
Apache License 2.0MIT LicenseBSD 3-Clause LicenseBSD 2-Clause LicenseGNU Lesser General Public License v3.0 (LGPLv3)GNU Affero General Public License v3.0 (AGPLv3)Mozilla Public License 2.0 (MPL-2.0)Eclipse Public License 2.0 (EPL-2.0)Microsoft Public License (Ms-PL)Creative Commons Attribution 4.0 International (CC BY 4.0)Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)zlib LicenseBoost Software License 1.0