Awesome-Text/Visual-Instruction-Tuning-Dataset
Una colección de conjuntos de datos de ajuste de instrucciones de código abierto para entrenar (texto y multimodal) LLM basados en chat (GPT-4, ChatGPT, Llama, Alpaca). Actualmente incluimos tres tipos de conjunto de datos:
- ajuste de la instrucción visual (por ejemplo, la respuesta a la inscripción de la imagen)
- conjuntos de datos de ajuste de instrucción de texto.
- Teaming rojo | Refuerzo Aprendizaje de conjuntos de datos de retroalimentación humana (RLHF)
Ajuste / refuerzo de instrucciones Aprendizaje de la retroalimentación humana (RLHF) El conjunto de datos es un componente clave de las LLM, sin instrucciones, como ChatGPT. Este repositorio se dedica a proporcionar una lista completa de conjuntos de datos utilizados para el ajuste de instrucciones en varios LLM, lo que facilita a los investigadores y desarrolladores acceder y utilizar estos recursos.
Listas de CodeBse para entrenar a sus LLM:
- Nichtdax/Awesome-Totally-Open-Chatgpt: una base de código de alternativas totalmente abiertas a Chatgpt
Tamaño: el número de pares de ajuste de instrucciones
Tags linguales:
- E: conjuntos de datos de instrucciones en inglés
- CN: conjuntos de datos de instrucciones en chino
- ML: conjuntos de datos de instrucciones [multilingües] en varios idiomas
Task-Tags:
- MT: conjuntos de datos [multitarea] que contienen múltiples tareas
- TS: conjuntos de datos [específicos de tareas] diseñados para tareas específicas
Método de generación:
- HG: conjuntos de datos [conjuntos de datos generados por humanos] creados por humanos
- SI: conjuntos de datos [autoinstrucciones] generados utilizando métodos de autoinstrucción
- MEX: [DataSet de datos mixtos] El conjunto de datos contiene datos generados por humanos y máquinas
- Col: [colección de conjunto de datos] conjunto de datos hecho de una colección de otros conjuntos de datos
Tabla de contenido
- La plantilla
- El conjunto de datos de instrucciones multimodal
- (Vision-Cair/Minigpt-4) | 5k | En | Mt | Mix
- (Haotian-Liu/Llava) | 150k | en | mt | mezcla
- El conjunto de datos de ajuste de instrucciones
- (tatsu-lab/alpaca) | 52k | en | mt | si
- (gururise/limpiado alpaca) | 52k | en | mt | si
- (Xuefuzhao/Instructionwild) | 52k | en | CN | MT | SI
- (Josephuscheung/Guanacodataset) | 534k | Ml | Mt | Si
- (Hello-Simpleai/HC3) | 24k | En | Mt | Mix
- (Hello-Simpleai/HC3-Chinese) | 13k | CN | MT | Mezcla
- (Allenai/Prosocial-Dialog) | 58k | en | mt | mezcla
- (Allenai/Instrucciones naturales) | 1.6k | ml | mt | Hg
- (bigscience/xp3) | n/a | ml | mt | mix
- (nomic-ai/gpt4all) | 437k | en | mt | col
- (Phoebussi/alpaca-cot) | 500k | ml | mt | col
- (Google-Research/Flan) | n/a | en | mt | mezcla
- (Thunlp/Ultrachat) | 280k | EN | TS | MEX
- (Cascip/chatalpaca) | 10k | en | mt | mezcla
- (Yeungnlp/Firefly-Train-1.1m) | 1100K | CN | MT | COL
- (Orhonovich/Instrucciones antinaturales) | 240k | en | Mt | Mezcla
- (Instrucción-ajuste con GPT-4/GPT-4-llm) | 52k | en | cn | mt | Si
- (databrickslabs/dolly) | 15k | en | mt | hg
- (OpenAsistant/OASST1) | 161K | Ml | MT | HG
- (Ryokoai/sharegpt52k) | 90k | ml | mt | si
- (Zjunlp/Mol-Instructions) | 2043k | Ml | Mt | Mezcla
- Refuerzo Aprendizaje de conjuntos de datos de retroalimentación humana (RLHF)
- (Antrópico/hh-rlhf) | 22k | en | mt | mezcla
- (Thu-Coai/Safety-Prompts) | 100k | CN | MT | MEX
- (HuggingfaceH4/Stack-Exchange-Preferences) | 10741k | en | TS | Hg
- (stanfordnlp/shp) | 385k | en | mt | hg
- (Instrucción-ajuste-GPT-4/GPT-4-LLM) | 52K | EN | MT | MEX
- Licencia que permite el uso comercial
La plantilla
Agregue el nuevo proyecto al final del archivo
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable) Los conjuntos de datos de instrucciones multimodales
(Vision-Cair/Minigpt-4) | 5k | En | Mt | Mix
- Resumen: un conjunto de datos de texto de imagen de alta calidad, bien alineado (por ejemplo, descifrado de imagen más detallado) creado por texto de imagen creado utilizando una conversación entre dos bots, similar a ChatCaptioner. Este conjunto de datos de texto de imagen se puede utilizar con alguna plantilla de instrucción predefinida para la fina de insinstrucción de imagen-respuesta.
- Modalidad: texto, imagen
- Modelo de generación de datos: N/A
- Documento: Minigpt-4: Mejora de la comprensión del idioma de la visión con modelos avanzados de idiomas grandes
- Licencia:
BSD 3-Clause - Relacionado:
- Captive de chat interactivo para imagen y video
(Haotian-Liu/Llava) | 150k | en | mt | mezcla
- Resumen: Llava Visual Instruct 150K es un conjunto de datos de seguimiento de instrucciones multimodales generados por GPT. Se construye para un ajuste de instrucciones visuales y para construir grandes multimodales hacia la capacidad de visión/lenguaje GPT-4.
- Modalidad: texto, imagen
- Modelo de generación de datos:
GPT-4-0314 - Documento: ajuste de instrucciones visuales
- Licencia:
CC BY-NC 4.0
[({SunRainyg}/{instructcv) | en | mt | mix}] {https://github.com/alaalab/instructcv}
- Resumen: modelos de difusión de texto a imagen sintonizados como generalistas de visión
- Modalidad: texto, imagen
- Documento: instructcv
- Licencia:
CC BY-NC 4.0
Los conjuntos de datos de seguimiento de instrucciones
(tatsu-lab/alpaca) | 52k | en | mt | si
- Resumen:
52K datos generados a partir de la tubería self-instruct modificada con 175 seed task escrita humana. - Modelo de generación de datos:
text-davinci-003 - Documento: bloqueo de alpaca
- Licencia:
CC BY-NC 4.0
(gururise/limpiado alpaca) | 52k | en | mt | si
- Resumen: un proyecto que limpió manualmente el conjunto de datos Alpaca 52K
- Modelo de generación de datos:
text-davinci-003 - Documento: N/A
- Licencia:
CC BY-NC 4.0
(Xuefuzhao/Instructionwild) | 52k | en | CN | MT | SI
- Resumen:
52K datos generados a partir de la tubería self-instruct modificada con 429 seed task escrita humana. - Modelo de generación de datos:
text-davinci-003 - Documento: N/A
- Licencia: Instructwild DataSet está destinado solo a fines de investigación no comerciales.
(Josephuscheung/Guanacodataset) | 534k | Ml | Mt | Si
- Resumen:
52K Datos de instrucción generados a partir de la tubería self-instruct modificada con 429 seed task escrita humana. - Modelo de generación de datos:
text-davinci-003 - Licencia:
GPL-3.0
(Hello-Simpleai/HC3) | 24k | En | Mt | Mix
- Resumen: El primer Corpus de Comparación Human-ChatGPT (versión en inglés), llamado HC3 DataSet
- Modelo de generación de datos:
gpt-3.5 , human generated - Documento: ¿Qué tan cerca está el chatgpt para expertos humanos? Corpus de comparación, evaluación y detección
- Licencia:
CC BY-SA 4.0
(Hello-Simpleai/HC3-Chinese) | 13k | CN | MT | Mezcla
- Resumen: El primer Corpus de Comparación Human-CHATGPT (versión china), llamada HC3 DataSet
- Modelo de generación de datos:
gpt-3.5 , human generated - Documento: ¿Qué tan cerca está el chatgpt para expertos humanos? Corpus de comparación, evaluación y detección
- Licencia:
CC BY-SA 4.0
(Allenai/Prosocial-Dialog) | 58k | en | mt | mezcla
- Resumen: Prosocialdialog es el primer conjunto de datos de diálogo en inglés a gran escala en inglés que enseña a los agentes conversacionales a responder al contenido problemático después de las normas sociales.
- Modelo de generación de datos:
gpt-3.5 , human generated - Documento: prosocialdialog: una columna prosocial para los agentes de conversación
- Licencia:
CC BY 4.0
(Allenai/Instrucciones naturales) | 1.6k | ml | mt | Hg
- Resumen: un esfuerzo comunitario para crear una gran colección de
1,616 diverse NLP tasks y sus definiciones/instrucciones de lenguaje natural. - Modelo de generación de datos:
Human generated - Documento: Súper NaturalInstrucciones: Generalización a través de instrucciones declarativas en tareas de 1600+ PNLP
- Licencia:
Apache License 2.0
(bigscience/xp3) | n/a | ml | mt | mix
- Resumen: [RESOURA DE ADMENTOS] XP3 (grupo público de indicaciones públicas cruzadas) es una colección de indicaciones y conjuntos de datos en 46 de idiomas y 16 tareas de PNL.
- Modelo de generación de datos: N/A
- Documento: generalización cruzada a través de la fina múltiple
- Licencia:
Apache License 2.0
(Phoebussi/alpaca-cot) | 500k | ml | mt | col
- Resumen: un conjunto de datos para el razonamiento de la cadena de pensamientos basado en Llama y Alpaca. Nota: Su repositorio recopilará y combinará continuamente varios conjuntos de datos de ajuste de instrucciones. Repositorio de Github
- Documento: N/A
- Licencia:
Apache License 2.0
(nomic-ai/gpt4all) | 437k | en | mt | col
- Resumen: GPT4All aprovecha tres conjuntos de datos disponibles públicamente: 1.Laion/OIG, 2.Pacovaldez/StackOverflow-Questions 3.
- Modelo de generación de datos: N/A
- Documento: GPT4All: Entrenamiento de un chatbot de estilo asistente con destilación de datos a gran escala de GPT-3.5-TURBO
- Licencia:
MIT License
(Teknium1/gpTeacher) | 20k+| en | mt | si
- Resumen: una colección de conjuntos de datos modulares generados por GPT-4, instrucciones generales-Roleplay-Instructo-Instlute de código y formador de herramientas
- Modelo de generación de datos:
GPT-4 - Documento: N/A
- Licencia:
MIT License
(Google-Research/Flan) | n/a | en | mt | mezcla
- Resumen: La colección Flan compila conjuntos de datos de Flan 2021, P3, instrucciones súper naturales, junto con docenas de conjuntos de datos más en un solo lugar, los formatea en una mezcla de plantillas de cero disparos, pocos disparos y cadena de pensamiento
- Modelo de generación de datos: N/A
- Documento: La recopilación de Flan: Diseño de datos y métodos para un ajuste de instrucciones efectivo
- Licencia:
Apache License 2.0
(Thunlp/Ultrachat) | 280k | EN | TS | MEX
- Resumen: Ultrachat tiene como objetivo construir datos de diálogos de código abierto, a gran escala y multi rondas. Se lanza la primera parte de Ultrachat (es decir, las preguntas sobre el sector mundial), que contiene 280k diálogos diversos e informativos. Más diálogos sobre la escritura y la creación, la asistencia en los materiales existentes está por venir.
- Modelo de generación de datos:
GPT-3.5-turbo - Documento: N/A
- Licencia:
CC BY-NC 4.0
(Cascip/chatalpaca) | 10k | en | mt | mezcla
- Resumen: Basado en los datos de Stanford Alpaca, Chatalpaca extiende los datos a las instrucciones múltiples y sus respuestas correspondientes. Más datos (20k) y la versión traducida en chino están por venir.
- Modelo de generación de datos:
GPT-3.5-turbo - Documento: N/A
- Licencia:
Apache License 2.0 - Relacionado: (tatsu-lab/alpaca) | 52k | en | mt | si
(Yeungnlp/Firefly-Train-1.1m) | 1100K | CN | MT | COL
- Resumen: conjuntos de datos chinos de 23 tareas combinadas con plantillas de instrucción escrita por humanos.
- Modelo de generación de datos: N/A
- Documento: N/A
- Licencia: N/A
(Orhonovich/Instrucciones antinaturales) | 240k | en | Mt | Mezcla
- Resumen: 64k ejemplos provocando un modelo de idioma con tres ejemplos de semillas de instrucciones y provocando un cuarto. Luego, el conjunto se expande a 240k al solicitar al modelo a reformular cada instrucción.
- Modelo de generación de datos:
text-davinci-002 - Documento: Instrucciones antinaturales: ajuste de modelos de lenguaje con (casi) sin trabajo humano
- Licencia:
MIT License
(Instrucción-ajuste con GPT-4/GPT-4-llm) | 52k | en | cn | mt | Si
- Resumen: 52k Datos de seguimiento de instrucciones generados por GPT-4 con las indicaciones de Alpaca originales y las indicaciones de Alpaca traducidas al chino por ChatGPT + 9k Datos de seguimiento de instrucciones generados por GPT-4 con indicaciones en instrucciones no naturales.
- Modelo de generación de datos:
GPT-4 - Documento: ajuste de instrucciones con GPT-4
- Licencia:
CC BY-NC 4.0 - Relacionado:
- (tatsu-lab/alpaca) | 52k | en | mt | si
- (Orhonovich/Instrucciones antinaturales) | 240k | en | Mt | Mezcla
(databrickslabs/dolly) | 15k | en | mt | hg
- Resumen: Este conjunto de datos fue generado por miles de empleados de Databricks en varias de las categorías de comportamiento descritas en el documento InstructTPPT, incluida la lluvia de ideas, la clasificación, el control de calidad cerrado, la generación, la extracción de información, el control de calidad y el resumen.
- Modelo de generación de datos: N/A
- Documento: Dolly gratis
- Licencia:
CC BY-SA 3.0
(OpenAsistant/OASST1) | 161K | Ml | MT | HG
- Resumen: OpenSistant Conversations (OASST1), un corpus de conversación de estilo asistente de estilo asistente generado por humanos y anotado por humanos que consta de 161,443 mensajes distribuidos en 66,497 árboles de conversación, en 35 idiomas diferentes, anotados con 461,292 clasificaciones de calidad.
- Modelo de generación de datos: N/A
- Documento: Conversaciones OpenSistant - Democratización de la alineación del modelo de idioma grande
- Licencia:
Apache License 2.0
(Ryokoai/sharegpt52k) | 90k | ml | mt | si
- Resumen: 90,000 conversaciones raspadas a través de la API ShareGPT antes de que se cerrara. Estas conversaciones incluyen las indicaciones y respuestas del usuario del CHATGPT de Openai.
- Modelo de generación de datos:
GPT-4 , GPT-3.5 - Documento: N/A
- Licencia:
CC0 1.0 Universal
(Zjunlp/Mol-Instructions) | 2043k | Ml | Mt | Mezcla
- Resumen: un conjunto de datos de instrucciones biomoleculares abiertos a gran escala que consiste en 148,4K instrucciones de texto biomoleculares orientadas a moléculas, 505K orientadas a proteínas y 53K de texto biomolecular.
- Modelo de generación de datos:
GPT-3.5 - Documento: Mol-Instrucción: un conjunto de datos de instrucciones biomoleculares a gran escala para modelos de idiomas grandes
- Licencia:
CC BY 4.0
Refuerzo Aprendizaje de la retroalimentación humana (RLHF) | Conjuntos de datos de teatro rojo
(Antrópico/hh-rlhf) | 22k | en | mt | mezcla
- Resumen: este conjunto de datos RLHF es un conjunto de datos 'en línea' iterado que incluye datos de modelos de idiomas 52B. Contiene comparaciones de ayuda de 22k y no hay datos de equipo rojo.
- Modelo de generación de datos:
Anthropic RL-CAI 52B - Documento: capacitar a un asistente útil e inofensivo con refuerzo aprendiendo de comentarios humanos
- Licencia:
MIT License - Relacionado:
- (Hello-Simpleai/HC3) | 24k | En | Mt | Mix
- (Hello-Simpleai/HC3-Chinese) | 13k | CN | MT | Mezcla
(Thu-Coai/Safety-Prompts) | 100k | CN | MT | MEX
- Resumen: Seguridad de la seguridad china para evaluar y mejorar la seguridad de los LLM. Este repositorio incluye 100k indicaciones de escena de seguridad china y respuestas de ChatGPT, que cubre varios escenarios de seguridad y ataques de comando. Se puede utilizar para una evaluación y mejora integrales de la seguridad del modelo, así como para mejorar el conocimiento de la seguridad del modelo, alineando la salida del modelo con los valores humanos.
- Modelo de generación de datos:
GPT-3.5 - Documento: Evaluación de seguridad de los modelos chinos de idiomas grandes
- Licencia:
Apache License 2.0
(HuggingfaceH4/Stack-Exchange-Preferences) | 10741k | en | TS | Hg
- Resumen: este conjunto de datos contiene preguntas y respuestas del volcado de datos de desbordamiento de pila con el fin de la capacitación del modelo de preferencia.
- Modelo de generación de datos: N/A
- Documento: un asistente de idioma general como laboratorio para la alineación
- Licencia:
CC BY-SA 4.0 - Relacionado:
(stanfordnlp/shp) | 385k | en | mt | hg
- Resumen: Cada ejemplo es una publicación de Reddit con una pregunta/instrucción y un par de comentarios de nivel superior para esa publicación, donde los usuarios de Reddit preferen un comentario (colectivamente).
- Modelo de generación de datos: N/A
- Documento: N/A
- Licencia: N/A
(Instrucción-ajuste-GPT-4/GPT-4-LLM) | 52K | EN | MT | MEX
- Resumen: Respuestas clasificadas (Nota: los datos se evalúan mediante el modelo
GPT-4 no humano) de las indicaciones de Alpaca de tres modelos (GPT-4, GPT-3.5 y OPT-IML) pidiéndole a GPT-4 que califique la calidad. El autor cree que "GPT-4 es capaz de identificar y corregir sus propios errores, y juzgar con precisión la calidad de las respuestas" - Modelo de generación de datos:
GPT-4 - Documento: ajuste de instrucciones con GPT-4
- Licencia:
CC BY-NC 4.0 - Relacionado:
- (tatsu-lab/alpaca) | 52k | en | mt | si
(Reddit/ELI5) | 500K | EN | MT | HG
- Resumen: este conjunto de datos contiene preguntas y respuestas de los subreddits r/Explicle KlikeImfive, r/askhistorians y r/askscience.
- Modelo de generación de datos: N/A
- Documento: N/A
- Licencia: N/A
- Relacionado: conjunto de datos ELI5 Una transformación del conjunto de datos ELI5 en un formato similar a Stack-Exchange-Paired.
Licencia que permite el uso comercial
Nota: Si bien estas licencias permiten el uso comercial, pueden tener diferentes requisitos para la atribución, distribución o modificación. Asegúrese de revisar los términos específicos de cada licencia antes de usarla en un proyecto comercial.
Licencias de uso comercial:
-
Apache License 2.0 -
MIT License -
BSD 3-Clause License -
BSD 2-Clause License -
GNU Lesser General Public License v3.0 (LGPLv3) -
GNU Affero General Public License v3.0 (AGPLv3) -
Mozilla Public License 2.0 (MPL-2.0) -
Eclipse Public License 2.0 (EPL-2.0) -
Microsoft Public License (Ms-PL) -
Creative Commons Attribution 4.0 International (CC BY 4.0) -
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) -
zlib License -
Boost Software License 1.0