Texto impressionante/Instrução Visual-Tuneing-Dataset
Uma coleção de conjuntos de dados de ajuste de instrução de código aberto para treinar (texto e LLMs baseados em bate-papo em texto e multimodal) (GPT-4, ChatGPT, LLAMA, ALPACA). Atualmente, incluímos três tipos de conjunto de dados:
- Tuneamento visual-instrução (por exemplo, insuposição de insuficiência de imagem)
- conjuntos de dados de ajuste de instrução de texto.
- Team de vermelho | Aprendizagem de reforço com o Feedback Humano (RLHF) conjuntos de dados
Instrução Ajuste / Aprendizagem de reforço com o conjunto de dados de feedback humano (RLHF) é um componente essencial dos LLMs que seguem a instrução, como o ChatGPT. Este repositório é dedicado a fornecer uma lista abrangente de conjuntos de dados usados para ajuste de instrução em vários LLMs, facilitando a acesso e a utilização desses recursos.
Listas de Codebse para treinar seu LLMS:
- Nichtdax/Awesome-Totly-Open-Chatgpt: Uma base de código de alternativas totalmente abertas ao chatgpt
Tamanho: o número de pares de ajuste de instrução
Lingual-Tags:
- Pt: conjuntos de dados de instruções em inglês
- CN: conjuntos de dados de instruções em chinês
- ML: [Multi-Lingual] conjuntos de dados de instrução em vários idiomas
Marcas de tarefas:
- MT: [Multitarek] conjuntos de dados contendo várias tarefas
- TS: conjuntos de dados [específicos de tarefas] adaptados para tarefas específicas
Generation-Method:
- HG: [conjunto de dados gerado por humanos] conjuntos de dados criados por humanos
- SI: conjuntos de dados [auto-estruturas] gerados usando métodos de auto-estrutura
- Mix: [conjunto de dados misto] O conjunto de dados contém dados humanos e gerados por máquina
- COL: [Coleção do conjunto de dados] DataSet feito de uma coleção de outros conjuntos de dados
Índice
- O modelo
- O conjunto de dados de instruções multimodais
- (Vision-Cair/Minigpt-4) | 5k | en | mt | Mix
- (Haotian-Liu/llava) | 150k | en | mt | mix
- O conjunto de dados de ajuste de instrução
- (TATSU-LAB/ALPACA) | 52K | EN | MT | SI
- (alpaca gururizada/limpa) | 52k | en | mt | si
- (Xuefuzhao/InstructionWild) | 52k | en | cn | mt | Si
- (Josephuscheung/guanacodataset) | 534k | ml | mt | si
- (Hello-simpleai/hc3) | 24k | en | mt | mix
- (Hello-simpleai/hc3-chinese) | 13k | cn | mt | mix
- (Allenai/Prosocial-Dialog) | 58K | en | mt | Mix
- (Allenai/Instrução Natural) | 1.6k | ml | mt | hg
- (Bigscience/xp3) | n/a | ml | mt | mix
- (nomic-ai/gpt4all) | 437k | en | mt | col
- (Phoebussi/Alpaca-COT) | 500k | ml | mt | col
- (Google-Research/Flan) | n/a | en | mt | mix
- (thunlp/ultrachat) | 280k | en | ts | mix
- (cascip/chatalpaca) | 10k | en | mt | mix
- (Yeungnlp/firefly-train-1.1m) | 1100k | cn | mt | col
- (ORHONOVICH/INSTANTAL-INSTRUÇÕES) | 240K | EN | MT | MIST
- (Ajuste de instrução-with-GPT-4/GPT-4-LLM) | 52K | EN | CN | MT | SI
- (Databrickslabs/dolly) | 15k | en | mt | hg
- (OpenAssistant/oasst1) | 161k | ml | mt | hg
- (Ryokoai/sharegpt52k) | 90k | ml | mt | si
- (ZJUNLP/MOL-INSTRUÇÕES) | 2043K | ML | MT | MIST
- Aprendizagem de reforço com o Feedback Humano (RLHF) conjuntos de dados
- (Antrópico/Hh-rlhf) | 22k | en | mt | Mix
- (thu-coai/segurança-promoções) | 100k | cn | mt | mix
- (HuggingfaceH4/Stack-Exchange-Preferences) | 10741k | en | ts | hg
- (Stanfordnlp/shp) | 385k | en | mt | hg
- (Ajuste de instrução-with-GPT-4/GPT-4-LLM) | 52K | EN | MT | Mix
- Licença que permite o uso comercial
O modelo
Anexar o novo projeto no final do arquivo
## [ ({owner}/{project-name)|Tags} ] { https://github.com/link/to/project}
- summary:
- Data generation model:
- paper:
- License:
- Related: (if applicable) Os conjuntos de dados de instruções multimodais
(Vision-Cair/Minigpt-4) | 5k | en | mt | Mix
- Resumo: Um conjunto de dados de imagem de imagem de imagem de imagem de imagem de alta qualidade, bem alinhado (por exemplo, mais detalhado), criado com conversas entre dois bots, semelhante ao Chatcaption. Este conjunto de dados de texto de imagem pode ser usado com algum modelo de instrução predefinido para a insuposição da instrução de imagem.
- Modalidade: texto, imagem
- Modelo de geração de dados: n/a
- Artigo: Minigpt-4: Aprimorando o entendimento da linguagem da visão com modelos avançados de linguagem grande
- Licença:
BSD 3-Clause - Relacionado:
- Chatcaption interativo para imagem e vídeo
(Haotian-Liu/llava) | 150k | en | mt | mix
- Resumo: Llava Visual Instruct 150K é um conjunto de dados de seguidores de instruções multimodais geradas por GPT. É construído para ajuste de instrução visual e para construir uma grande capacidade multimodal em relação à capacidade de visão/idioma GPT-4.
- Modalidade: texto, imagem
- Modelo de geração de dados:
GPT-4-0314 - papel: ajuste de instrução visual
- Licença:
CC BY-NC 4.0
[({Sunrainyg}/{Instructcv) | en | mt | mix}] {https://github.com/alaalab/instructcv}
- Resumo: Modelos de difusão de texto para imagem ajustados por instrução como generalistas da visão
- Modalidade: texto, imagem
- Artigo: Instructcv
- Licença:
CC BY-NC 4.0
Os conjuntos de dados seguintes para instruções
(TATSU-LAB/ALPACA) | 52K | EN | MT | SI
- Resumo:
52K dados gerados a partir de tubulação self-instruct modificada com 175 seed task por escrito por escrito humano. - Modelo de geração de dados:
text-davinci-003 - Papel: Alpaca-blog
- Licença:
CC BY-NC 4.0
(alpaca gururizada/limpa) | 52k | en | mt | si
- Resumo: Um projeto que limpou manualmente o conjunto de dados Alpaca 52K
- Modelo de geração de dados:
text-davinci-003 - Papel: n/a
- Licença:
CC BY-NC 4.0
(Xuefuzhao/InstructionWild) | 52k | en | cn | mt | Si
- Resumo:
52K dados gerados a partir de pipeline self-instruct modificada com 429 seed task por escrito humano. - Modelo de geração de dados:
text-davinci-003 - Papel: n/a
- Licença: o conjunto de dados do InstructWild destina-se apenas a fins de pesquisa não comerciais.
(Josephuscheung/guanacodataset) | 534k | ml | mt | si
- Resumo: Dados de instrução
52K gerados a partir de pipeline self-instruct modificada com 429 seed task por escrito humano. - Modelo de geração de dados:
text-davinci-003 - Licença:
GPL-3.0
(Hello-simpleai/hc3) | 24k | en | mt | mix
- Resumo: o primeiro corpus de comparação de chatgpt humano (versão em inglês), denominada conjunto de dados HC3
- Modelo de geração de dados:
gpt-3.5 , human generated - Papel: Quão perto está o chatgpt de especialistas em humanos? Comparação corpus, avaliação e detecção
- Licença:
CC BY-SA 4.0
(Hello-simpleai/hc3-chinese) | 13k | cn | mt | mix
- Resumo: o primeiro corpus de comparação de chatgpt humano (versão chinesa), denominada conjunto de dados HC3
- Modelo de geração de dados:
gpt-3.5 , human generated - Papel: Quão perto está o chatgpt de especialistas em humanos? Comparação corpus, avaliação e detecção
- Licença:
CC BY-SA 4.0
(Allenai/Prosocial-Dialog) | 58K | en | mt | Mix
- Resumo: O ProsocialDialog é o primeiro conjunto de dados de diálogo em inglês em larga escala para ensinar agentes de conversação a responder ao conteúdo problemático após normas sociais.
- Modelo de geração de dados:
gpt-3.5 , human generated - Papel: ProsocialDialog: um backbone pró -social para agentes de conversação
- Licença:
CC BY 4.0
(Allenai/Instrução Natural) | 1.6k | ml | mt | hg
- Resumo: Um esforço da comunidade para criar uma grande coleção de
1,616 diverse NLP tasks e suas definições/instruções de linguagem natural. - Modelo de geração de dados:
Human generated - Artigo: Supernaturalinstructions: Generalização por meio de instruções declarativas em 1600+ tarefas de NLP
- Licença:
Apache License 2.0
(Bigscience/xp3) | n/a | ml | mt | mix
- Resumo: [Prompt-Resource] Xp3 (Pool de Prompts Public Crosslingual) é uma coleção de avisos e conjuntos de dados em 46 idiomas e 16 tarefas de NLP.
- Modelo de geração de dados: n/a
- Papel: generalização cruzada através de multitarefas finetuning
- Licença:
Apache License 2.0
(Phoebussi/Alpaca-COT) | 500k | ml | mt | col
- Resumo: Um conjunto de dados para o raciocínio da cadeia de thoughts com base em llama e alpaca. NOTA: O repositório deles coletará e combinará continuamente vários conjuntos de dados de ajuste de instrução. Repo Github
- Papel: n/a
- Licença:
Apache License 2.0
(nomic-ai/gpt4all) | 437k | en | mt | col
- Resumo: GPT4All Aproveita três conjuntos de dados publicamente disponíveis: 1.LAION/OIG, 2.PACOVALDEZ/STACKOVERFLOW-QUESTIONS 3. Subconjunto de Bigscience/Bloomz-P3
- Modelo de geração de dados: n/a
- Artigo: GPT4all: Treinando um chatbot de estilo assistente com destilação de dados em larga escala do GPT-3.5-Turbo
- Licença:
MIT License
(Teknium1/gpteacher) | 20k+| enit | mt | si
- Resumo: Uma coleção de conjuntos de dados modulares gerados pelo GPT-4, Geral-Instruct-Roleplay-Instruct-Code-Instruct-e Ferramentas
- Modelo de geração de dados:
GPT-4 - Papel: n/a
- Licença:
MIT License
(Google-Research/Flan) | n/a | en | mt | mix
- Resumo: A coleção Flan compila conjuntos de dados do Flan 2021, P3, instruções super-naturais, juntamente com dezenas de conjuntos de dados em um só lugar, formam-os em uma mistura de modelos de zero-tiro, poucos e cadeias de pensamentos.
- Modelo de geração de dados: n/a
- Papel: The Flan Collection: Projetando dados e métodos para ajuste eficaz de instruções
- Licença:
Apache License 2.0
(thunlp/ultrachat) | 280k | en | ts | mix
- Resumo: O Ultrachat pretende construir dados de diálogo de código aberto, em larga escala e várias rodadas. A primeira parte do Ultrachat (ou seja, as perguntas sobre o setor mundial) é lançada, que contém 280 mil diálogos diversos e informativos. Mais diálogos sobre escrita e criação, a assistência nos materiais existentes estão por vir.
- Modelo de geração de dados:
GPT-3.5-turbo - Papel: n/a
- Licença:
CC BY-NC 4.0
(cascip/chatalpaca) | 10k | en | mt | mix
- Resumo: Com base nos dados de Stanford Alpaca, o ChatalPaca estende os dados a instruções de várias turnos e suas respostas correspondentes. Mais dados (20k) e a versão traduzida em chinês estão por vir.
- Modelo de geração de dados:
GPT-3.5-turbo - Papel: n/a
- Licença:
Apache License 2.0 - Relacionado: (Tatsu-Lab/Alpaca) | 52k | en | mt | si
(Yeungnlp/firefly-train-1.1m) | 1100k | cn | mt | col
- Resumo: conjuntos de dados chineses de 23 tarefas combinadas com modelos de instruções escritos por humanos.
- Modelo de geração de dados: n/a
- Papel: n/a
- Licença: n/a
(ORHONOVICH/INSTANTAL-INSTRUÇÕES) | 240K | EN | MT | MIST
- Resumo: 64k Exemplos solicitando um modelo de idioma com três exemplos de instruções de sementes e provocando um quarto. Em seguida, o conjunto é expandido para 240k, solicitando o modelo a reformular cada instrução.
- Modelo de geração de dados:
text-davinci-002 - Papel: Instruções não naturais: Ajustando modelos de linguagem com (quase) nenhum trabalho humano
- Licença:
MIT License
(Ajuste de instrução-with-GPT-4/GPT-4-LLM) | 52K | EN | CN | MT | SI
- Resumo: 52k A seguir, dados de seguidores gerados pelo GPT-4 com os avisos originais da ALPACA e os avisos de alpaca traduzidos para os chineses por ChatGPT + 9K que seguem os dados gerados pelo GPT-4 com instruções em instrução não natural.
- Modelo de geração de dados:
GPT-4 - Papel: Ajuste das instruções com GPT-4
- Licença:
CC BY-NC 4.0 - Relacionado:
- (TATSU-LAB/ALPACA) | 52K | EN | MT | SI
- (ORHONOVICH/INSTANTAL-INSTRUÇÕES) | 240K | EN | MT | MIST
(Databrickslabs/dolly) | 15k | en | mt | hg
- Resumo: Esse Datset foi gerado por milhares de funcionários de banco de dados em várias das categorias comportamentais descritas no artigo InstructGPT, incluindo brainstorming, classificação, controle de qualidade fechado, geração, extração de informações, controle de qualidade e resumo aberto.
- Modelo de geração de dados: n/a
- Papel: Dolly grátis
- Licença:
CC BY-SA 3.0
(OpenAssistant/oasst1) | 161k | ml | mt | hg
- Resumo: Conversas OpenAssistant (OASST1), um corpus de conversação de estilo assistente gerado por humanos e anotado pelo homem, composto por 161.443 mensagens distribuídas em 66.497 árvores de conversa, em 35 idiomas diferentes, anotados com 461.292 ratings de qualidade.
- Modelo de geração de dados: n/a
- Papel: Conversas OpenAssistant - Democratizando o Alinhamento do Modelo de Língua de Grandes Linguagem
- Licença:
Apache License 2.0
(Ryokoai/sharegpt52k) | 90k | ml | mt | si
- Resumo: 90.000 conversas raspadas através da API do ShareGPT antes de ser fechada. Essas conversas incluem os avisos do usuário e as respostas do ChatGPT da OpenAI.
- Modelo de geração de dados:
GPT-4 , GPT-3.5 - Papel: n/a
- Licença:
CC0 1.0 Universal
(ZJUNLP/MOL-INSTRUÇÕES) | 2043K | ML | MT | MIST
- Resumo: Um conjunto de dados de instruções biomoleculares em larga escala e em larga escala, composto por instruções orientadas a 148,4k, orientadas a proteínas e 53K, orientadas a 53 mil.
- Modelo de geração de dados:
GPT-3.5 - Artigo: Mol-Instructions: Um conjunto de dados de instrução biomolecular em larga escala para modelos de idiomas grandes
- Licença:
CC BY 4.0
Aprendizagem de reforço com o feedback humano (RLHF) | Conjuntos de dados de equipes vermelhas
(Antrópico/Hh-rlhf) | 22k | en | mt | Mix
- Resumo: Este conjunto de dados RLHF é um conjunto de dados 'online' iterado que inclui dados de modelos de idiomas 52b. Ele contém comparações de 22k de utilidade e nenhum dado de time vermelho.
- Modelo de geração de dados:
Anthropic RL-CAI 52B - Artigo: Treinando um assistente útil e inofensivo com o aprendizado de reforço com o feedback humano
- Licença:
MIT License - Relacionado:
- (Hello-simpleai/hc3) | 24k | en | mt | mix
- (Hello-simpleai/hc3-chinese) | 13k | cn | mt | mix
(thu-coai/segurança-promoções) | 100k | cn | mt | mix
- RESUMO: Os avisos de segurança chineses para avaliar e melhorar a segurança do LLMS. Este repositório inclui 100 mil cenários de segurança chineses e respostas de chatgpt, abrangendo vários cenários de segurança e ataques de comando. Ele pode ser usado para avaliação abrangente e melhoria da segurança do modelo, além de melhorar o conhecimento do modelo de segurança, alinhando a saída do modelo com os valores humanos.
- Modelo de geração de dados:
GPT-3.5 - Papel: Avaliação de segurança de modelos de grandes idiomas chineses
- Licença:
Apache License 2.0
(HuggingfaceH4/Stack-Exchange-Preferences) | 10741k | en | ts | hg
- Resumo: Este conjunto de dados contém perguntas e respostas do despejo de dados do Stack Overflow para fins de treinamento do modelo de preferência.
- Modelo de geração de dados: n/a
- Artigo: Um Assistente de Língua Geral como um laboratório de alinhamento
- Licença:
CC BY-SA 4.0 - Relacionado:
- Emparelhamento de troca de pilha
(Stanfordnlp/shp) | 385k | en | mt | hg
- Resumo: Cada exemplo é uma postagem do Reddit com uma pergunta/instrução e um par de comentários de nível superior para esse post, onde um comentário é mais preferido pelos usuários do Reddit (coletivamente).
- Modelo de geração de dados: n/a
- Papel: n/a
- Licença: n/a
(Ajuste de instrução-with-GPT-4/GPT-4-LLM) | 52K | EN | MT | Mix
- Resumo: Respostas classificadas (Nota: Os dados são avaliados pelo modelo
GPT-4 não humano) dos avisos da ALPACA de três modelos (GPT-4, GPT-3.5 e OPT-IML) pedindo ao GPT-4 que classifique a qualidade. O autor acredita que "o GPT-4 é capaz de identificar e corrigir seus próprios erros, e julgar com precisão a qualidade das respostas" - Modelo de geração de dados:
GPT-4 - Papel: Ajuste das instruções com GPT-4
- Licença:
CC BY-NC 4.0 - Relacionado:
- (TATSU-LAB/ALPACA) | 52K | EN | MT | SI
(Reddit/Eli5) | 500k | en | mt | hg
- Resumo: Este conjunto de dados contém perguntas e respostas dos subreddits R/ExplyLikeImfive, R/AskHistorians e R/AskScience.
- Modelo de geração de dados: n/a
- Papel: n/a
- Licença: n/a
- RELACIONADO: DATASET ELI5 Uma transformação do conjunto de dados ELI5 em um formato semelhante ao emparelhamento de troca de pilha.
Licença que permite o uso comercial
Nota: Embora essas licenças permitam o uso comercial, elas podem ter requisitos diferentes para atribuição, distribuição ou modificação. Certifique -se de revisar os termos específicos de cada licença antes de usá -la em um projeto comercial.
Licenças de uso comercial:
-
Apache License 2.0 -
MIT License -
BSD 3-Clause License -
BSD 2-Clause License -
GNU Lesser General Public License v3.0 (LGPLv3) -
GNU Affero General Public License v3.0 (AGPLv3) -
Mozilla Public License 2.0 (MPL-2.0) -
Eclipse Public License 2.0 (EPL-2.0) -
Microsoft Public License (Ms-PL) -
Creative Commons Attribution 4.0 International (CC BY 4.0) -
Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) -
zlib License -
Boost Software License 1.0