Produzido por Meta! PIPPO: Digite uma imagem de um único caractere e produza imagens de várias visões de alta resolução-artigos de AI

Autor：Eve Cole Data da Última Atualização：2025-02-17 18:32:01

A equipe de pesquisa da Meta Reality Labs anunciou recentemente o lançamento de um modelo generativo inovador chamado "Pippo", que pode gerar vídeos intensivos de rotatividade com resolução de até 1K a partir de uma única foto normal. Esse avanço tecnológico não apenas mostra os últimos avanços no campo da visão computacional, mas também traz novas possibilidades à tecnologia de geração de imagens.

A inovação central do modelo PIPPO está no design de seu conversor de difusão com várias visões. Diferentemente dos modelos generativos tradicionais, o PIPPO não precisa confiar em dados de entrada adicionais, como modelos de parâmetros de ajuste ou parâmetros da câmera. Os usuários precisam apenas fornecer uma foto, e o sistema pode gerar automaticamente efeitos de vídeo em várias visualizações, apresentando assim uma imagem de caractere mais vívida e tridimensional.

Para a conveniência dos desenvolvedores, o PIPPO é lançado como uma versão somente de código desta vez, sem pesos pré-treinamento. A equipe de pesquisa forneceu modelos completos, arquivos de configuração, códigos de inferência e amostras de códigos de treinamento para o conjunto de dados AVA-256. Os desenvolvedores podem iniciar rapidamente o treinamento de modelos e o desenvolvimento de aplicativos através da clonagem de comandos simples e da configuração de bases de código.

Os planos futuros para o projeto PIPPO incluem agrupamento adicional e otimização de código e lançamento de scripts de inferência para modelos pré-treinados. Essas melhorias melhorarão significativamente a experiência do usuário e promoverão a popularidade generalizada dessa tecnologia em aplicações práticas.

Link do projeto: https://github.com/facebookresearch/pippo

Pontos -chave:

O modelo PIPPO é capaz de gerar vídeos de várias visualizações de alta resolução a partir de uma única foto normal sem entrada adicional.

O código é publicado apenas e não inclui pesos pré-treinamento.

A equipe planeja lançar mais recursos e melhorias no futuro para aprimorar a experiência do usuário.