Conjuntos de preferências humanas impressionantes para LLM? ❤️?
Uma lista com curadoria de conjuntos de dados de preferência humana de código aberto para ajuste de instrução LLM, RLHF e avaliação.
Para conjuntos de dados gerais de PNL e corporto de texto, confira esta lista incrível.
Conjuntos de dados
Comparações do OpenAi WebGPT
- 20k Comparações em que cada exemplo compreende uma pergunta, um par de respostas do modelo e pontuações de preferência classificadas pelo ser humano para cada resposta.
- O conjunto de dados RLHF usado para treinar o modelo de recompensa do WebGPT do OpenAI.
Summarização OpenAI
- Exemplos de resumo de texto de 64K, incluindo respostas escritos por seres humanos e respostas de modelos classificados por humanos.
- O conjunto de dados RLHF usado no Apening Learning para resumir a partir do documento de feedback humano.
- Explore dados de amostra aqui.
Conjunto de utilidade e inovação antrópica (hh-rlhf)
- No total de 170 mil comparações de preferência humana, incluindo dados de preferência humana coletados para treinar um assistente útil e inofensivo com o aprendizado de reforço com o feedback humano e os dados de equipes vermelhas geradas pelo ser humano de modelos de idiomas em equipes vermelhas para reduzir os danos, divididos em 3 subdatasetes:
- Um conjunto de dados básico usando um modelo 52B dististido no contexto, com comparações de 44k de utilidade e comparações de 42k de equipes vermelhas (inovação).
- Um conjunto de dados RS de comparações de 52k de utilidade e comparações de 2K de equipes vermelhas usando modelos de amostragem de rejeição, onde a amostragem de rejeição usou um modelo de preferência treinado no conjunto de dados base.
- Um conjunto de dados on -line iterado, incluindo dados de modelos RLHF, atualizado semanalmente durante cinco semanas, com comparações de 22k.
DataSet de conversas do OpenAssistant (OASST1)
- Um corpus de conversa de estilo assistente gerado por humanos e anotado humano, composto por 161 mil mensagens em 35 idiomas, anotado com 461 mil classificações de qualidade, resultando em 10K+ árvores de conversa totalmente anotadas.
Conjunto de dados de preferências humanas de Stanford (SHP)
- 385K Preferências humanas coletivas sobre respostas a perguntas/instruções em 18 domínios para treinamento de modelos de recompensa RLHF e modelos de avaliação de NLG. Conjuntos de dados coletados do reddit.
Reddit Eli5
- 270K Exemplos de perguntas, respostas e pontuações coletadas de 3 perguntas e respostas Subreddits.
Corpus de comparação de chatgpt humano (HC3)
- 60k Respostas humanas e 27k ChatGPT Respostas para cerca de 24 mil perguntas.
- Conjunto de dados de irmãos disponíveis para chinês.
Huggingface h4 stackexchange preferência conjunto de dados
- 10 milhões de perguntas (com> = 2 respostas) e respostas (pontuadas com base na contagem de votos) do Stackoverflow.
ShareGpt.com
- 90K (em abril de 2023) Interações ChatGPT montadas pelo usuário.
Para acessar os dados usando a API do ShareGPT, consulte a documentação aqui A API do ShareGPT está atualmente desativada ("devido ao excesso de tráfego").- Conjuntos de dados pré -complicados no huggingface.
Alpaca
- 52K Instruções e demonstrações geradas pelo mecanismo Text-Davinci-003 da OpenAI para treinamento de auto-instrução .
Gpt4all
- 1M Pump-Response pares coletados usando a API GPT-3.5-Turbo em março de 2023. Repo Github.
Databricks DOLLY DATASET
- 15K A seguir de registros que seguem a instrução gerados pelos funcionários da Databricks em categorias, incluindo brainstorming, classificação, controle de qualidade fechado, geração, extração de informações, controle de qualidade e resumo aberto.
Hh_golden
- 42k Dados inofensivos, mesmos instruções e respostas "rejeitadas" como o conjunto de dados inofensivo nos conjuntos de dados antrópicos HH, mas as respostas nas respostas "escolhidas" são reescritidas usando o GPT4 para produzir respostas mais inofensivas. A comparação antes e depois reescrita pode ser encontrada aqui. Empiricamente, em comparação com o conjunto de dados inofensivo original, o treinamento neste conjunto de dados melhora as métricas inofensivas para vários métodos de alinhamento, como RLHF e DPO.