awesome instruction dataset
1.0.0
开源指令调谐数据集的集合,以训练基于聊天的LLM(GPT-4,Chatgpt,Llama,Llama,aspaca)。我们目前包括三种类型的数据集:
从人类反馈(RLHF)数据集中进行的指令调整 /加固学习是指导关注LLMS(例如ChatGpt)的关键组成部分。该仓库致力于提供各种LLM中用于指导调整的数据集的全面列表,从而使研究人员和开发人员更容易访问和利用这些资源。
培训您的LLM的代码列表:
尺寸:指令调整对的数量
lingual-tags:
任务标签:
生成方法:
在文件末尾附加新项目
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable)BSD 3-ClauseGPT-4-0314CC BY-NC 4.0 CC BY-NC 4.0175 seed task由修改的self-instruct管道产生的52K数据。text-davinci-003CC BY-NC 4.0 text-davinci-003CC BY-NC 4.0 429 seed task由修改的self-instruct管道产生的52K数据。text-davinci-003429 seed task由修改的self-instruct管道生成的52K指令数据。text-davinci-003GPL-3.0 gpt-3.5 , human generatedCC BY-SA 4.0 gpt-3.5 , human generatedCC BY-SA 4.0 gpt-3.5 , human generatedCC BY 4.0 1,616 diverse NLP tasks及其自然语言定义/指示。Human generatedApache License 2.0 Apache License 2.0 Apache License 2.0 MIT License GPT-4MIT License Apache License 2.0 GPT-3.5-turboCC BY-NC 4.0 GPT-3.5-turboApache License 2.0text-davinci-002MIT License GPT-4CC BY-NC 4.0CC BY-SA 3.0 Apache License 2.0 GPT-4 , GPT-3.5CC0 1.0 Universal GPT-3.5CC BY 4.0Anthropic RL-CAI 52BMIT LicenseGPT-3.5Apache License 2.0 CC BY-SA 4.0GPT-4评分质量来评估三种型号(GPT-4,GPT-3.5和OPT-IML)的羊驼提示(GPT-4模型不是人类)的排名响应(注意:数据。作者认为“ GPT-4能够识别和解决自己的错误,并准确判断响应质量”GPT-4CC BY-NC 4.0注意:尽管这些许可证允许商业使用,但它们可能对归因,分发或修改有不同的要求。在商业项目中使用该许可之前,请务必查看每个许可证的具体条款。
商业使用许可证:
Apache License 2.0MIT LicenseBSD 3-Clause LicenseBSD 2-Clause LicenseGNU Lesser General Public License v3.0 (LGPLv3)GNU Affero General Public License v3.0 (AGPLv3)Mozilla Public License 2.0 (MPL-2.0)Eclipse Public License 2.0 (EPL-2.0)Microsoft Public License (Ms-PL)Creative Commons Attribution 4.0 International (CC BY 4.0)Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0)zlib LicenseBoost Software License 1.0