A Universidade de Nanjing e o Instituto de Pesquisa Megvii colaboraram para desenvolver um paradigma de grande modelo visual não supervisionado chamado SeVa, que resolve efetivamente o problema de alinhamento de preferências de modelos de linguagem visual. Esta tecnologia inovadora não requer participação manual ou GPT-4. Ela reduz significativamente os custos de alinhamento ao construir automaticamente dados de preferência, melhora a capacidade de seguimento de instruções do modelo, reduz alucinações e alcançou resultados notáveis em vários testes de benchmark. O núcleo do SeVa é usar tecnologia de aumento de imagem para gerar amostras positivas e negativas e usá-las para treinar o modelo, alcançando, em última análise, um alinhamento eficaz das preferências humanas.
O núcleo desta tecnologia é construir automaticamente um pipeline de dados de preferência. Ao comparar a saída do modelo antes e depois do alinhamento de preferência, as mudanças podem ser vistas claramente. Os pesquisadores descobriram que mesmo pequenos aumentos de imagem poderiam dar ao VLM respostas diferentes para a mesma pergunta. Portanto, eles usaram as respostas da imagem original como amostras positivas e as respostas da imagem aumentada como amostras negativas para treinamento.

Os resultados experimentais da SeVa são impressionantes. O uso de apenas 8k de dados não supervisionados melhorou significativamente a capacidade de seguimento de instruções do VLM, reduziu as alucinações e alcançou melhorias significativas em benchmarks multimodais e outros. Mais importante ainda, este método é simples, de baixo custo e não requer nenhuma anotação humana ou GPT-4.
Os resultados dos testes em vários benchmarks mostram que o SeVa tem vantagens significativas na melhoria do alinhamento das preferências humanas dos modelos visuais. Especialmente nas bancadas MMVet e LLaVA avaliadas pelo GPT-4, o desempenho do SeVa é particularmente notável. Além disso, o SeVa também pode produzir respostas mais longas e detalhadas, com maior consistência em cada resposta, e é mais robusto a perturbações de diferentes temperaturas.
Esta pesquisa não só fornece uma solução eficaz para o problema de alinhamento de grandes modelos visuais, mas também abre novas possibilidades para o desenvolvimento do campo da IA. Com o código aberto do SeVa, podemos prever que mais investigadores e desenvolvedores utilizarão este paradigma para promover o desenvolvimento da tecnologia de IA no futuro. Nesta era cheia de possibilidades infinitas, esperemos mais surpresas trazidas pela tecnologia de IA.
Endereço do projeto: https://github.com/Kevinz-code/SeVa
O código aberto do SeVa promoverá o desenvolvimento de tecnologia visual de grandes modelos, fornecerá aos pesquisadores e desenvolvedores novas ferramentas e métodos e melhorará ainda mais o desempenho e a aplicação da IA visual. O sucesso desta pesquisa demonstra o grande potencial da aprendizagem não supervisionada na resolução de problemas de alinhamento de IA e aponta uma nova direção para o desenvolvimento futuro da tecnologia de IA.