Awesome-align-llm-humano
Uma coleção de trabalhos e recursos sobre o alinhamento de grandes modelos de idiomas (LLMs) com humanos.
Os grandes modelos de idiomas (LLMS) treinados em extensos corpora textual surgiram como soluções principais para uma ampla variedade de tarefas de processamento de linguagem natural (PNL). Apesar de seu desempenho notável, esses modelos são propensos a certas limitações, como entender mal instruções humanas, gerando conteúdo potencialmente tendencioso ou informações factualmente incorretas (alucinadas). Portanto, o alinhamento de LLMs com expectativas humanas tornou -se uma área de interesse ativa na comunidade de pesquisa. Esta pesquisa apresenta uma visão abrangente dessas tecnologias de alinhamento, incluindo os seguintes aspectos. (1) Coleta de dados (2) Metodologias de treinamento (3) Avaliação do modelo. Em conclusão, reunimos e destilamos nossas descobertas, lançando luz sobre várias avenidas promissoras de pesquisas no campo. Esta pesquisa, portanto, serve como um recurso valioso para qualquer pessoa investida na compreensão e promoção do alinhamento dos LLMs para melhor se adequar às tarefas e expectativas orientadas para o ser humano.
Esperamos que esse repositório possa ajudar pesquisadores e profissionais a entender melhor esse campo emergente. Se este repositório for útil para você, ajude -nos citando este artigo:
@article{aligning_llm_human,
title={Aligning Large Language Models with Human: A Survey},
author={Yufei Wang and Wanjun Zhong and Liangyou Li and Fei Mi and Xingshan Zeng and Wenyong Huang and Lifeng Shang and Xin Jiang and Qun Liu},
journal={arXiv preprint arXiv:2307.12966},
year={2023}
}Notícias
? Este projeto está em desenvolvimento. Você pode acertar a estrela e assistir para seguir as atualizações.
- 2023/07/31: Nosso artigo de pesquisa é colocado em [podcast @ papersread.ai]
- 2023/07/25: Nosso papel de pesquisa inicial alinhando grandes modelos de idiomas com humano: uma pesquisa fica disponível.
Índice
- Notícias
- Awesome-aligning-llm-humano
- Pesquisas relacionadas
- Dados de alinhamento
- Dados de humanos
- Dados da Strong LLMS
- Gerenciamento de instruções
- Treinamento de alinhamento
- Alinhamento humano online
- Alinhamento humano offline
- Treinamento com eficiência de parâmetro
- Avaliação de alinhamento
- Princípios de design de avaliação
- Benchmarks de avaliação
- Paradigmas de avaliação
- Kits de ferramentas de alinhamento
Pesquisas relacionadas
- Uma pesquisa de grandes modelos de idiomas [papel]
- Uma pesquisa sobre modelos de linguagem grande multimodal [papel]
- Uma pesquisa sobre avaliação de grandes modelos de idiomas [papel]
- Desafios e aplicações de grandes modelos de idiomas [papel]
- Aproveitando o poder dos LLMs na prática: uma pesquisa sobre ChatGPT e além [Paper]
- Especialização do domínio como a chave para tornar grandes modelos de linguagem disruptivos: uma pesquisa abrangente [artigo]
- Uma pesquisa sobre segurança e confiabilidade de grandes modelos de linguagem através da lente de verificação e validação [artigo]
- Unificar grandes modelos de idiomas e gráficos de conhecimento: um roteiro [papel]
- Aprendizagem de ferramentas com modelos de fundação [papel]
- Oito coisas para saber sobre grandes modelos de idiomas [papel]
- Problemas abertos e limitações fundamentais do aprendizado de reforço com o feedback humano [artigo]
- Uma revisão de palco do ajuste de instrução [blog]
Dados de alinhamento
Dados de humanos
Benchmarks de NLP
- Promptsource: um ambiente de desenvolvimento integrado e um repositório para avisos de linguagem natural [papel]
- Supernaturalinstructions: generalização por meio de instruções declarativas em tarefas de NLP de 1600+ [papel]
- A coleção de flan: projetando dados e métodos para ajuste eficaz de instruções [papel]
- O conjunto de dados do OIG [blog]
- ChatPlug: Sistema de diálogo generativo de domínio aberto com sintonização de instruções agitadas na Internet para Human [papel] digital [papel]
- O alinhamento de texto é um modelo unificado eficiente para tarefas maciças de PNL [papel]
- OPT-IML: Escalando a instrução Modelo de linguagem Meta Learning através das lentes da generalização [artigo]
- Instruct-Fingpt: Análise de sentimentos financeiros por sintonização de instrução de grandes modelos de idiomas de uso geral [Artigo]
Conhecimento de domínio
- Aprendendo um modelo de linguagem de fundação para a compreensão e utilização do conhecimento da geociência [artigo]
- Relatório técnico de advogado llama [artigo]
- Huatuo: Modelo de Tuning Llama com conhecimento médico chinês [Artigo]
- PMC-Llama: Finetuning Llama em Documentos Médicos [Papel]
- Ajuste fino com eficiência de parâmetro para o domínio clínico [papel]
Instruções artesanais
- Dolly grátis: Apresentando o primeiro LLM de instrução verdadeiramente aberto do mundo [blog]
- Conversas abertas - democratizando o grande alinhamento do modelo de linguagem [artigo]
- Geralista de instrução aberta chinesa: uma liberação preliminar [papel]
- ShareGPT [blog]
- Vamos verificar passo a passo [papel]
- Beavertails: Rumo ao melhor alinhamento de segurança do LLM por meio de um conjunto de dados de preferência humana [papel]
- A importância dos dados marcados com humanos na era do LLMS [Paper]
Dados de preferência humana
- Treinando modelos de idiomas para seguir as instruções com feedback humano [papel]
- Melhorando o alinhamento de agentes de diálogo por meio de julgamentos humanos direcionados [artigo]
- Modelos de linguagem de ajuste fino da preferência humana [papel]
- Ensinar modelos de linguagem para apoiar respostas com citações verificadas [papel]
- WebGPT: Pergunta assistida por navegador-Respondendo a feedback humano [artigo]
Dados da Strong LLMS
Instruções gerais
Melhorando a qualidade da entrada
- Auto-instrução: alinhando modelos de linguagem com instruções auto-geradas [papel]
- Lamini-lm: um rebanho diversificado de modelos destilados de instruções em larga escala [papel]
- Baize: um modelo de bate-papo de código aberto com ajuste eficiente em parâmetro nos dados do auto-traseiro [papel]
- Modelo de linguagem grande como gerador de dados de treinamento atribuído: um conto de diversidade e viés [Paper]
- Wizardlm: capacitar grandes modelos de linguagem para seguir instruções complexas [papel]
- Instruções não naturais: Ajustando modelos de linguagem com (quase) nenhum trabalho humano [papel]
- Dinosauro: um paradigma de crescimento dinâmico para ajuste de instrução Curation [Paper]
- Explorando a consistência do formato para ajuste de instrução [papel]
Melhorando a qualidade da produção
- Cadeia de pensamento provocando o raciocínio em grandes modelos de idiomas [papel]
- ORCA: Aprendizagem progressiva com traços de explicação complexos do GPT-4 [Paper]
- Leão: Destilação Adversária do Modelo de Linguagem de Grandes Casa Fechada [Papel]
- Auto-alinhamento orientado a princípios de modelos de idiomas do zero com supervisão humana mínima [papel]
- ExpertPropting: Instruindo grandes modelos de linguagem a serem distintos especialistas [papel]
- Phoenix: Democratizing ChatGPT entre idiomas [papel]
- Melhorando a generalização cruzada com instruções passo a passo [papel]
- A coleção de berços: melhorando o aprendizado zero e de poucos modelos de idiomas por meio de ajuste fino de cadeia de pensamento [papel]
Instruções de raciocínio
Raciocínio geral
- Especializando modelos de linguagem menores para raciocínio em várias etapas [papel]
- Destilando passo a passo! Superando modelos de linguagem maiores com menos dados de treinamento e tamanhos de modelo menores [papel]
- Destilação de raciocínio agente com conhecimento para pequenos modelos de idiomas em tarefas intensivas em conhecimento [Artigo]
- PAD: A destilação auxiliada ao programa especializa grandes modelos no raciocínio [papel]
Código
- Livros didáticos são tudo o que você precisa [papel]
- WizardCoder: capacitando o código grande modelos de idiomas com evolu-instrução [papel]
- Código Alpaca: Um modelo de llama que segue a instrução para geração de código [GitHub]
- Codet5+: Código aberto Modelos de idiomas grandes para compreensão e geração de código [papel]
- PANG-CODER2: Aumentando grandes modelos de linguagem para código com feedback de classificação [papel]
Matemática
- Mint: impulsionando a generalização no raciocínio matemático por meio de ajuste fino de várias vistas [papel]
- Cabra: A llama ajustada supera o GPT-4 em tarefas aritméticas [papel]
- Relacionamento de escala no aprendizado de raciocínio matemático com grandes modelos de linguagem [papel]
Instruções de conversação
- Vicuna: Um chatbot de código aberto impressionando o GPT-4 com 90%* Qualidade do Chatgpt [blog]
- Baize: um modelo de bate-papo de código aberto com ajuste eficiente em parâmetro nos dados do auto-traseiro [papel]
- Aprimorando os modelos de linguagem de bate-papo, dimensionando conversas instrucionais de alta qualidade [papel]
- Camelo: agentes comunicativos para a exploração "mente" da sociedade de modelos de linguagem em larga escala [papel]
- SelfEe: LLM de auto-revisão iterativa capacitada pela geração de auto-feedback [blog]
- Um pipeline de criação de dados eficaz para gerar dados de instrução financeira de alta qualidade para o modelo de linguagem grande [papel]
Instruções multilíngues
- Phoenix: Democratizing ChatGPT entre idiomas [papel]
- Bayling: Bridging de alinhamento e instrução cruzada seguindo através da tradução interativa para grandes modelos de idiomas [papel]
- Bactrian-X: um modelo multilíngue replicável que segue a instrução com adaptação de baixo rank [Paper]
- Instruct-Align: Ensinar novos idiomas com o LLMS por meio de instrução transfronsiva baseada em alinhamento [papel]
Gerenciamento de instruções
Implicações de instrução
- Até onde os camelos podem ir? Explorando o estado da instrução Ajustando em recursos abertos [papel]
- Flacuna: Liberando o poder de resolução de problemas de Vicuna usando o ajuste fino de Flan [papel]
- Modelos de linguagem com restrição de dados [papel]
- Para uma melhor instrução a seguir modelos de idiomas para chinês: investigando o impacto dos dados de treinamento e avaliação [Paper]
- A falsa promessa de imitar LLMs proprietários [Paper]
- Limitações fundamentais de alinhamento em grandes modelos de linguagem [papel]
Quantidade de instrução
- Tornando-se auto-estrutura: introdução de critérios de parada antecipada para ajuste mínimo de instrução [papel]
- Lima: Menos é mais para o alinhamento [papel]
- Mineração de instruções: Seleção de dados de instruções de alta qualidade para grandes modelos de idiomas [papel]
- Alpagasus: treinando uma alpaca melhor com menos dados [papel]
- Talvez apenas 0,5% sejam necessários: uma exploração preliminar de ajuste de instrução de dados de baixo treinamento [papel]
Treinamento de alinhamento
Alinhamento humano online
- Treinando modelos de idiomas para seguir as instruções com feedback humano [papel]
- RAFT: Recompensa classificada no alinhamento generativo do modelo de fundação [papel]
- AI constitucional: inovação do feedback da IA [[Paper]] (IA constitucional: inovação do feedback da IA)
- RLCD: Aprendizagem de reforço da destilação de contraste para o alinhamento do modelo de idioma [Paper]
Alinhamento humano offline
Treinamento baseado em classificação
- Otimização de preferência direta: seu modelo de idioma é secretamente um modelo de recompensa [papel]
- Otimização de classificação de preferência para alinhamento humano [artigo]
- RRHF: respostas de classificação a modelos de linguagem alinhados com feedback humano sem lágrimas [papel]
- PANG-CODER2: Aumentando grandes modelos de linguagem para código com feedback de classificação [papel]
- A probabilidade de sequência de calibração melhora a geração de linguagem condicional [papel]
- Fazendo grandes modelos de idiomas melhores raciocínio com alinhamento [papel]
Treinamento baseado em idiomas
- OpenChat: menos é mais para modelos de código aberto [GitHub]
- Os idiomas são recompensas: Hindsight Finetuning usando feedback humano [papel]
- Pensamentos secundários são melhores: Aprender a se alinhar com os valores humanos das edições de texto [papel]
- Treinar modelos de linguagem socialmente alinhados na sociedade humana simulada [artigo]
- SelfEe: LLM de auto-revisão iterativa capacitada pela geração de auto-feedback [blog]
- O feedback humano de granulação fina oferece melhores recompensas para o treinamento de modelos de idiomas [papel]
Treinamento com eficiência de parâmetro
- Lora: adaptação de baixo rank de grandes modelos de linguagem [papel]
- Qlora: Finetuning eficiente de LLMs quantizados [papel]
- Tuneamento de prefixos: otimizando instruções contínuas para a geração [papel]
- O poder de escala para ajuste rápido com eficiência de parâmetro [papel]
- Alocação de orçamento adaptável para ajuste fino com eficiência de parâmetro [papel]
- Espaços de design de ajuste fino com eficiência de parâmetro [papel]
- Dica: Ajuste da instrução HyperNetwork para generalização eficiente de zero e poucos tiro [papel]
Design de arquitetura de modelo
- Mistura de especialistas atende à instrução Tuning: Uma combinação vencedora para grandes modelos de idiomas [papel]
- Lamini-lm: um rebanho diversificado de modelos destilados de instruções em larga escala [papel]
Avaliação de alinhamento
Princípios de design de avaliação
- Sparks de inteligência geral artificial: experimentos iniciais com GPT-4 [Paper]
- Medindo com eficiência a capacidade cognitiva do LLMS: uma perspectiva de teste adaptável [papel]
- Avaliação holística de modelos de linguagem [papel]
Benchmarks de avaliação
Benchmarks de set fechados
Conhecimento geral
- Medindo o entendimento maciço da linguagem multitarefa [artigo]
- CMMLU: Medindo o entendimento maciço da linguagem multitarefa em chinês [artigo]
- C-EVAL: um conjunto de avaliação chinesa multidisciplina multinível para modelos de fundação [papel]
- KOLA: Benchmarking World Knowledge de grandes modelos de idiomas [papel]
- M3KE: Um enorme referência de avaliação de conhecimento multinível em vários sujeitos para modelos de idiomas grandes chineses [papel]
- AGIEVAL: Um benchmark centrado no ser humano para avaliar modelos de fundação [papel]
- Medindo o entendimento massivo em chinês multitarefa [artigo]
- Xiezhi: Um benchmark sempre atualizado para avaliação de conhecimento holística do domínio [artigo]
- Tablet: Aprendendo com as instruções para dados tabulares [papel]
- Os modelos de idiomas podem entender os conceitos físicos? [Papel]
Raciocínio
- Verificadores de treinamento para resolver problemas de palavras matemáticas [papel]
- Medindo o entendimento maciço da linguagem multitarefa [artigo]
- Commonsenseqa: um desafio de resposta a perguntas direcionadas ao senso comum [artigo]
- Aristóteles usou um laptop? Uma referência de resposta a perguntas com estratégias implícitas de raciocínio [artigo]
- Cadeia de pensamento provocando o raciocínio em grandes modelos de idiomas [papel]
- Desafiar tarefas de grande banco e se a cadeia de pensamento pode resolvê-las [papel]
- Síntese de programas com grandes modelos de idiomas [papel]
- DS-1000: Um benchmark natural e confiável para geração de código de ciência de dados [papel]
- Avaliando grandes modelos de linguagem treinados no código [papel]
- O seu código é gerado pelo chatgpt realmente correto? Avaliação rigorosa de grandes modelos de linguagem para geração de código [papel]
- Repobench: Benchmarking Repository-Level Code Systems de conclusão automática [Paper]
- Classeval: Uma referência elaborada manualmente para avaliar o LLMS na geração de código de nível de classe [papel]
- Estudante: uma referência de avisos escritos por estudantes para grandes modelos de idiomas de código [papel]
Benchmarks de set-set
Chat geral
- Vicuna: Um chatbot de código aberto impressionando o GPT-4 com 90%* Qualidade do Chatgpt [blog]
- Auto-instrução: alinhando modelos de linguagem com instruções auto-geradas [papel]
- Conversas abertas - democratizando o grande alinhamento do modelo de linguagem [artigo]
- Flask: Avaliação do modelo de linguagem de granulação fina com base em conjuntos de habilidades de alinhamento [papel]
- Julgando LLM-AS-A-JUDGE COM MT-BANCE e CHATBOT ARENA [Paper]
- ALPACAFARM: Uma estrutura de simulação para métodos que aprendem com o feedback humano [papel]
Segurança
- Avaliação de segurança de modelos de grandes idiomas chineses [papel]
- Cvalues: medindo os valores dos grandes modelos de idiomas chineses, da segurança à responsabilidade [papel]
- Jailbreak latente: um benchmark para avaliar a segurança e a robustez do texto de grandes modelos de idiomas [papel]
- TrustGPT: Uma referência para modelos de idiomas grandes e confiáveis e responsáveis [papel]
Longo contexto
- L-EVAL: Instituindo avaliação padronizada para modelos de linguagem de contexto longos [papel]
Paradigmas de avaliação
Avaliação baseada em humano
- Auto-instrução: alinhando modelos de linguagem com instruções auto-geradas [papel]
- Lamini-lm: um rebanho diversificado de modelos destilados de instruções em larga escala [papel]
- Treinando modelos de idiomas para seguir as instruções com feedback humano [papel]
- Julgando LLM-AS-A-JUDGE COM MT-BANCE e CHATBOT ARENA [Paper]
Avaliação baseada em LLMS
LLMS para avaliação
- G-EVAL: Avaliação NLG usando o GPT-4 com melhor alinhamento humano [papel]
- GPTSCore: Avalie como você deseja [papel]
- Explorando o uso de grandes modelos de idiomas para avaliação da qualidade do texto sem referência: um estudo empírico preliminar [Artigo]
- Os grandes modelos de linguagem podem ser uma alternativa às avaliações humanas? [Papel]
- FACTSCORE: Avaliação atômica de granulação fina da precisão factual na geração de texto de forma longa [papel]
- AlignScore: Avaliando a consistência factual com uma função de alinhamento unificado [papel]
- Análise de erros Promoting Ativa a avaliação de tradução semelhante a humano em grandes modelos de idiomas: um estudo de caso no ChatGPT [Paper]
- Avaliação de resumo do tipo humano com chatgpt [papel]
- Modelos de idiomas grandes são avaliadores de última geração da geração de código [papel]
- Modelos de fundação de benchmarking com modelo-model como um examiner [papel]
- LLM-EVAL: Avaliação automática multidimensional unificada para conversas de domínio aberto com grandes modelos de linguagem [papel]
- LLMS como raciocínio factual: insights dos benchmarks existentes e além do [papel]
Viés de LLMS na avaliação
- Modelos de idiomas grandes não são avaliadores justos [papel]
- Estilo sobre substância: vieses de avaliação para grandes modelos de linguagem [papel]
- Julgando LLM-AS-A-JUDGE COM MT-BANCE e CHATBOT ARENA [Paper]
LLMs específicos de avaliação
- Pandalm: um benchmark de avaliação automática para otimização de ajuste de instrução LLM [papel]
- As redes mais amplas e profundas LLM são avaliadores da Fairer LLM [papel]
- Shepherd: um crítico para a geração de modelos de idiomas [papel]
Kits de ferramentas de alinhamento
- Llama v1 e v2 [github] [papel v1] [papel v2]
- LLAMA-X: Pesquisa acadêmica aberta sobre melhorar a llama para Sota LLM [Github]
- Llama2-chinese [github]
- Colossal-AI: Tornando os modelos de IA grandes mais baratos, mais rápidos e mais acessíveis. [Github]
- Treinamento e atendimento de redes neurais em larga escala com paralelização automática. [Github]
- FastChat [Github]
- LMFlow [Github]
- ACESSORITO DE LLAMA2: um kit de ferramentas de código aberto para o desenvolvimento de LLM [Github]