Awesome-rlaif ☄️
Uma lista com curadoria e atualização de artigos e repositórios relevantes sobre o aprendizado de reforço com o feedback da IA (RLAIF) . Em particular, nesta lista, acompanhamos os seguintes motivos:
- Usando o RL para otimizar o LLMS sem humanos , ou seja, com uma crítica LM como modelo de recompensa.
- Usando o LLMS para gerar feedback, em um loop de autocrítica .
Alguns dos recursos listados também podem ser considerados como parte do RLHF: a fronteira está embaçada. Já existem listas impressionantes de RLHF, portanto, aqui nos concentramos nos dois pontos anteriores.
Artigos
Os artigos são classificados cronologicamente.
2024
- 2401.10020 Modelos de linguagem auto-recompensa
Resumo
Positamos que, para alcançar agentes sobre -humanos, modelos futuros exigem feedback sobre -humano para fornecer um sinal de treinamento adequado. As abordagens atuais geralmente treinam modelos de recompensa das preferências humanas, que podem ser gargalhadas pelo nível de desempenho humano e, em segundo lugar, esses modelos de recompensa congelados separados não podem aprender a melhorar durante o treinamento do LLM. Neste trabalho, estudamos modelos de linguagem auto-recompensa, onde o próprio modelo de idioma é usado via LLM-AS-A-JUDGE, solicitando fornecer suas próprias recompensas durante o treinamento. Mostramos que, durante o treinamento iterativo do DPO, não apenas a instrução após a capacidade melhora, mas também a capacidade de fornecer recompensas de alta qualidade a si mesma. A llama de ajuste fino 2 70B em três iterações de nossa abordagem produz um modelo que supera muitos sistemas existentes na tabela de classificação do Alpacaeval 2.0, incluindo Claude 2, Gemini Pro e GPT-4 0613. Embora apenas um estudo preliminar, este trabalho abre a porta para a possibilidade de modelos que possam melhorar continuamente nos eixos.
2023
2309.00267 RLAIF: Escalando o aprendizado de reforço com o feedback humano com feedback da IA
Resumo
O aprendizado de reforço com o feedback humano (RLHF) é eficaz no alinhamento de grandes modelos de linguagem (LLMS) às preferências humanas, mas a coleta de rótulos de preferência humana de alta qualidade é um gargalo -chave. Realizamos uma comparação frente a frente do RLHF vs. RL da AI Feedback (RLAIF)-uma técnica em que as preferências são rotuladas por um LLM pronta para uso em vez de seres humanos, e descobrimos que elas resultam em melhorias semelhantes. Na tarefa de resumo, os avaliadores humanos preferem gerações de RLAIF e RLHF em um modelo de ajuste fino supervisionado por linha de base em ~ 70% dos casos. Além disso, quando solicitado a classificar os resumos de RLAIF vs. RLHF, os humanos preferem ambos a taxas iguais. Esses resultados sugerem que o RLAIF pode produzir desempenho em nível humano, oferecendo uma solução potencial para as limitações de escalabilidade do RLHF.
2309.07124 Chuva: Seus modelos de idiomas podem se alinhar sem o Finetuning
Resumo
Os grandes modelos de linguagem (LLMs) geralmente demonstram inconsistências com as preferências humanas. Pesquisas anteriores reuniram dados de preferência humana e alinharam os modelos pré-treinados usando aprendizado de reforço ou ajuste de instrução, a chamada etapa do Finetuning. Por outro lado, o alinhamento do Frozen LLMS sem dados extras é mais atraente. Este trabalho explora o potencial desta última configuração. Descobrimos que, ao integrar os mecanismos de autoavaliação e rebobinar, os LLMs desalinhados podem produzir diretamente respostas consistentes com as preferências humanas por meio de auto-bominamento. Introduzimos um novo método de inferência, a inferência auto-regressiva (chuva), que permite que os LLMs pré-treinados avaliem sua própria geração e usem os resultados da avaliação para orientar a rewind e a geração avançada para a segurança da IA. Notavelmente, a chuva opera sem a necessidade de dados extras para o alinhamento do modelo e se abstém de qualquer treinamento, computação de gradiente ou atualizações de parâmetros; Durante a fase de auto-avaliação, o modelo recebe orientações sobre as preferências humanas que se alinham através de um prompt de tempos fixo, eliminando a necessidade de modificar o prompt inicial. Resultados experimentais avaliados pelo GPT-4 e os seres humanos demonstram a eficácia da chuva: no conjunto de dados HH, a chuva melhora a taxa de inovação da llama 30b sobre a inferência de baunilha de 82% a 97%, mantendo a taxa de utilidade. Sob os principais ataques de ataques adversários em Vicuna 33b, a chuva estabelece uma nova linha de base de defesa, reduzindo a taxa de sucesso de ataque de 94% para 19%.
2308.06385 Zyn: modelos de recompensa com tiro zero com perguntas sim-não
Resumo
Neste trabalho, abordamos o problema de direcionar as gerações de texto de um LLM para um comportamento desejado, alinhando o texto gerado com as preferências do operador humano. Propomos o uso de outro modelo de idioma como um modelo de recompensa crítico de uma maneira zero graças ao aviso de uma pergunta sim-não que representa as preferências do usuário, sem exigir dados rotulados adicionais. Este modelo de recompensa com tiro zero fornece o sinal de aprendizado para ajustar ainda mais o LLM base usando o aprendizado de reforço, como no RLAIF; No entanto, nossa abordagem também é compatível em outros contextos, como a pesquisa de diversidade de qualidade. Evidências extensivas das capacidades da estrutura Zyn proposta são fornecidas através de experimentos em diferentes domínios relacionados à geração de texto, incluindo desintoxicação; otimizando o sentimento de críticas de filmes ou qualquer outro atributo; Dirigindo a opinião sobre um tópico específico que o modelo pode ter; e personalizar geradores imediatos para tarefas de texto para imagem.
2307.12950 RLCD: Aprendizagem de reforço da destilação de contraste para o alinhamento do modelo de idioma
Resumo
Propomos o aprendizado de reforço com a destilação de contraste (RLCD), um método para alinhar modelos de linguagem a seguir os princípios da linguagem natural sem usar o feedback humano. O RLCD treina um modelo de preferência usando pares de preferências simuladas que contêm um exemplo de alta e baixa qualidade, gerado usando instruções positivas e negativas contrastantes. O modelo de preferência é então usado para melhorar um modelo de linguagem de base não alinhado por meio de aprendizado de reforço. Empiricamente, o RLCD supera Rlaif (Bai et al., 2022b) e a destilação de contexto (Huang et al., 2022) linhas de base em três tarefas de alinhamento diversas-falta de preferência, ajuda e geração de contornos de histórias-e em 7B e 30B modelos para simulação de dados de preferência.
2022
- 2212.08073 AI constitucional: inovação do feedback da IA
Resumo
À medida que os sistemas de IA se tornam mais capazes, gostaríamos de receber sua ajuda para supervisionar outras IAs. Experimentamos métodos para treinar um assistente de IA inofensivo por meio de auto-aperfeiçoamento, sem os rótulos humanos que identificam resultados nocivos. A única supervisão humana é fornecida através de uma lista de regras ou princípios e, portanto, nos referimos ao método como 'IA constitucional'. O processo envolve um aprendizado supervisionado e uma fase de aprendizado de reforço. Na fase supervisionada, amostrar, a partir de um modelo inicial e, em seguida, geramos auto-criticadas e revisões e, em seguida, o modelo original nas respostas revisadas. Na fase RL, amostramos do modelo FinetUned, usamos um modelo para avaliar qual das duas amostras é melhor e, em seguida, treinamos um modelo de preferência desse conjunto de dados de preferências de IA. Em seguida, treinamos com o RL usando o modelo de preferência como sinal de recompensa, ou seja, usamos 'RL da AI Feedback' (RLAIF). Como resultado, somos capazes de treinar um assistente de IA inofensivo, mas não evisivo, que se envolve com consultas prejudiciais, explicando suas objeções a eles. Os métodos SL e RL podem alavancar o raciocínio do estilo da cadeia de pensamentos para melhorar o desempenho julgado pelo homem e a transparência da tomada de decisão da IA. Esses métodos possibilitam o controle do comportamento da IA com mais precisão e muito menos rótulos humanos.
Código
Aqui, acompanhamos repositórios e trechos de código relevantes para o RLAIF.
- Autocrito Um repositório para o aprendizado e geração de críticas de transformador
- Modelos Zero-Shot-Reward-Models: Modelos de recompensa com tiro zero com perguntas sim-não
- Cadeia autocrítica autocrítica com IA constitucional, usando Langchain
Contribuindo ❤️
Por favor, sinta -se à vontade para enviar um PR se desejar incluir recursos para esta lista!