¿Conjuntos de datos de preferencias humanas impresionantes para LLM? ❤️?
Una lista curada de conjuntos de datos de preferencias humanas de código abierto para el ajuste de instrucciones LLM, RLHF y evaluación.
Para conjuntos de datos y corpus de texto generales de PNL, consulte esta increíble lista.
Conjuntos de datos
Comparaciones de Operai WebGPT
- 20K comparaciones donde cada ejemplo comprende una pregunta, un par de respuestas del modelo y puntajes de preferencia con calificación humana para cada respuesta.
- El conjunto de datos RLHF utilizado para entrenar el modelo de recompensa de OpenAI WebGPT.
Resumen de OpenAI
- 64K Ejemplos de resumen de texto que incluyen respuestas escritas por humanos y respuestas modelo con calificación humana.
- El conjunto de datos RLHF utilizado en el aprendizaje de Operai para resumir del documento de retroalimentación humana.
- Explore los datos de muestra aquí.
Helección antrópica e inofensiva DataSet (HH-RLHF)
- En total, 170k comparaciones de preferencias humanas, incluidos los datos de preferencia humana recopilados para capacitar a un asistente útil e inofensivo con el aprendizaje de refuerzo de la retroalimentación humana y los datos de equipo rojo generados por humanos de los modelos de lenguaje de equipo rojo para reducir los daños, divididos en 3 subdatasets:
- Un conjunto de datos base que utiliza un modelo 52B destilado con contexto, con comparaciones de 44k de ayuda y 42k comparaciones de teatro rojo (inofensiva).
- Un conjunto de datos RS de comparaciones de ayuda de 52k y comparaciones de 2K en el equipo rojo utilizando modelos de muestreo de rechazo, donde el muestreo de rechazo utilizó un modelo de preferencia entrenado en el conjunto de datos base.
- Un conjunto de datos en línea iterado que incluye datos de modelos RLHF, actualizado semanalmente durante cinco semanas, con comparaciones de 22k de ayuda.
OpenSistant Conversations DataSet (OASST1)
- Un corpus de conversación de estilo asistente de estilo humano generado por humanos que consta de 161k mensajes en 35 idiomas, anotado con calificaciones de calidad de 461k, lo que resulta en árboles de conversación totalmente anotados de 10k+.
Estanford Human Preferences DataSet (SHP)
- 385K Preferencias humanas colectivas sobre respuestas a preguntas/instrucciones en 18 dominios para capacitar modelos de recompensa RLHF y modelos de evaluación de NLG. Conjuntos de datos recopilados de Reddit.
Reddit Eli5
- 270k ejemplos de preguntas, respuestas y puntajes recopilados de 3 subreddits de preguntas y respuestas.
Corpus de comparación de chatgpt humano (HC3)
- 60k respuestas humanas y 27k respuestas de chatgpt para alrededor de 24k preguntas.
- Dato de datos entre hermanos disponibles para chino.
Huggingface H4 STACKEXCHIVE DATASSET de datos
- 10 millones de preguntas (con> = 2 respuestas) y respuestas (puntuadas basadas en el recuento de votos) de StackOverflow.
ShareGPT.com
- 90K (a partir de abril de 2023) Interacciones CHATGPT superadas por el usuario.
Para acceder a los datos utilizando la API de ShareGPT, consulte la documentación aquí La API de ShareGPT está actualmente deshabilitada ("debido al exceso de tráfico").- Conjuntos de datos precomillados en Huggingface.
Alpaca
- 52K Instrucciones y demostraciones generadas por el motor Text-Davinci-003 de OpenAI para el entrenamiento de autoinstrucción .
GPT4All
- Pares de respuesta rápida de 1M se colocaron utilizando la API GPT-3.5-Turbo en marzo de 2023. Repo GitHub.
Conjunto de datos de dolly dolly
- Registros de seguimiento de instrucciones de 15k generados por los empleados de Databricks en categorías que incluyen lluvia de ideas, clasificación, QA cerrado, generación, extracción de información, QA abierto y resumen.
Hh_golden
- 42k datos inofensivos, mismas indicaciones y respuestas "rechazadas" como el conjunto de datos inofensivos en los conjuntos de datos HH antrópicos, pero las respuestas en las respuestas "elegidas" se reescriben utilizando GPT4 para obtener respuestas más inofensivas. La comparación antes y después de reescribir se puede encontrar aquí. Empíricamente, en comparación con el conjunto de datos inofensivo original, el entrenamiento en este conjunto de datos mejora las métricas inofensivas para varios métodos de alineación como RLHF y DPO.