L'équipe de recherche de Meta Reality Labs a récemment annoncé le lancement d'un modèle génératif innovant appelé "Pippo", qui peut générer des vidéos de chiffre d'affaires intensives à une résolution allant jusqu'à 1k à partir d'une seule photo normale. Cette percée technologique montre non seulement les dernières avancées dans le domaine de la vision par ordinateur, mais apporte également de nouvelles possibilités à la technologie de génération d'images.
L'innovation principale du modèle PIPPO réside dans la conception de son convertisseur de diffusion multi-vues. Contrairement aux modèles génératifs traditionnels, Pippo n'a pas besoin de s'appuyer sur des données d'entrée supplémentaires telles que les modèles de paramètres d'ajustement ou les paramètres de la caméra. Les utilisateurs n'ont qu'à fournir une seule photo, et le système peut générer automatiquement des effets vidéo multi-visualités, présentant ainsi une image de caractère plus vive et tridimensionnelle.
Pour la commodité des développeurs, Pippo est publié cette fois comme une version de code uniquement, sans poids pré-formation. L'équipe de recherche a fourni des modèles complets, des fichiers de configuration, des codes d'inférence et des exemples de codes de formation pour l'ensemble de données AVA-256. Les développeurs peuvent démarrer rapidement la formation du modèle et le développement d'applications grâce à un clonage de commande simple et à la configuration des bases de code.
Les plans futurs du projet PIPPO comprennent une collecte et une optimisation supplémentaires du code et de lancement de scripts d'inférence pour les modèles pré-formés. Ces améliorations amélioreront considérablement l'expérience utilisateur et favoriseront la popularité généralisée de cette technologie dans les applications pratiques.
Lien du projet: https://github.com/facebookresearch/pippo
Points clés:
Le modèle PIPPO est capable de générer des vidéos multi-vues haute résolution à partir d'une seule photo normale sans entrée supplémentaire.
Le code est uniquement publié et n'inclut pas les poids préalables.
L'équipe prévoit de lancer plus de fonctionnalités et d'améliorations à l'avenir pour améliorer l'expérience utilisateur.