LLM的令人敬畏的人类偏好数据集?❤️?
LLM指导,RLHF和评估的开源人类偏好数据集的策划列表。
对于一般的NLP数据集和文本语料库,请查看此很棒的列表。
数据集
Openai WebGPT比较
- 20K比较每个示例都包含一个问题,一对模型答案以及每个答案的人为偏好得分。
- RLHF数据集用于培训OpenAI WebGPT奖励模型。
Openai摘要
- 64K文本摘要示例,包括人写的响应和人等级的模型响应。
- RLHF数据集用于OpenAI学习中,以总结人类反馈论文。
- 在这里探索样本数据。
人类的帮助和无害数据集(HH-RLHF)
- 总共170k人类的偏好比较,包括收集的人类偏好数据,用于培训一位有益且无害的助手,并通过从人类反馈和人类生成的红色团队中从红色团队语言模型中学习的数据来减少危害,并分为3个子数据库:
- 使用上下文延伸的52B模型的基本数据集,具有44K的帮助比较和42K红线(无害)比较。
- 使用拒绝采样模型的52K帮助比较和2K红色团队比较的RS数据集,其中拒绝采样使用了在基本数据集中训练的偏好模型。
- 一个迭代的在线数据集,包括来自RLHF模型的数据,每周更新五个星期,并进行了22k的帮助比较。
openassistant对话数据集(OASST1)
- 人类生成的,人类注释的助理风格的对话语料库,该语料库由35种语言的161k邮件组成,带有461k质量评级,导致10K+完全注释的对话树。
斯坦福人类偏好数据集(SHP)
- 385K集体人类偏好对培训RLHF奖励模型和NLG评估模型的18个领域中的问题/说明的回答。从Reddit收集的数据集。
reddit eli5
- 从3个问答环节收集的问题,答案和分数的270k示例。
人类Chatgpt比较语料库(HC3)
- 60k人类的答案和27k Chatgpt的答案大约24K问题。
- 兄弟姐妹数据集可用于中文。
拥抱面H4 stackexchange偏好数据集
- 1000万个问题(> = 2个答案)和来自Stackoverflow的答案(根据投票计数得分)。
sharegpt.com
- 90K(截至2023年4月)用户淘汰的Chatgpt互动。
要使用ShareGpt的API访问数据,请参见此处的文档目前禁用了ShareGPT API(“由于流量过多”)。- 在拥抱面上预先填写的数据集。
羊驼
- OpenAI的Text-Davinci-003引擎生成的52K说明和示范用于自我实施培训。
GPT4ALL
- 1m提示响应对使用GPT-3.5-Turbo API在2023年收集。Githubrepo。
Databricks Dolly数据集
- Databricks员工在类别中生成的15K指令遵循记录,包括集思广益,分类,封闭质量检查,发电,信息提取,开放质量质量检查和摘要。
hh_golden
- 42K无害数据,相同的提示和“拒绝”响应与拟人HH数据集中的无害数据集,但是使用GPT4重新编写了“选择”响应中的响应,以产生更多无害的答案。可以在此处找到重新编写之前和之后的比较。从经验上讲,与原始的无害数据集相比,该数据集的培训可改善各种对齐方式(例如RLHF和DPO)的无害指标。