Tencent a récemment annoncé l'open source de son dernier cadre de génération d'image à vidéo - Hunyuanvideo-I2V. Cette décision marque une étape importante pour Tencent afin de promouvoir le développement des communautés open source, en particulier après sa réussite de Hunyuanvideo, qui démontre en outre ses capacités innovantes dans le domaine de l'intelligence artificielle.

Hunyuanvideo-I2V combine actuellement la technologie de génération vidéo la plus avancée, qui peut transformer des images statiques en contenu vidéo vif, offrant aux créateurs des possibilités plus créatives. Les utilisateurs n'ont qu'à télécharger une image et à décrire brièvement l'effet dynamique de l'image pour générer une courte vidéo de cinq secondes. La caractéristique de ce modèle est qu'elle permet non seulement aux images statiques de "bouger", mais peut également être automatiquement adaptée aux effets sonores de l'arrière-plan, améliorant considérablement le plaisir et l'attractivité de la vidéo.
Hunyuanvideo-I2V utilise un modèle de langue multimodale pré-formé en tant que codeur de texte, améliorant considérablement la capacité du modèle à comprendre le contenu sémantique de l'image d'entrée. Cela signifie que les images d'entrée utilisateur peuvent générer des marqueurs d'image sémantiques via le modèle, qui sont combinés avec des marqueurs potentiels vidéo, atteignant ainsi un calcul de l'attention complet plus complet. De cette façon, le système peut maximiser la synergie entre la modalité de l'image et du texte, garantissant que le contenu vidéo généré à partir d'images statiques est plus cohérent et réaliste.
Afin de permettre à davantage d'utilisateurs de vivre cette fonction, le site officiel de la vidéo Hunyuan AI a été lancé et les utilisateurs peuvent accéder directement au site Web à fonctionner. De plus, les entreprises et les développeurs peuvent également demander des interfaces API via Tencent Cloud pour intégrer cette technologie dans leurs applications. Ce modèle vidéo Tusheng est une continuation du travail open source du modèle vidéo Hunyuan Wensheng. Les paramètres totaux du modèle atteignent 13 milliards, ce qui convient à la génération de différents types de personnages et de scènes, couvrant des vidéos réalistes, des personnages d'animation et des personnages CGI.
Pendant le processus d'utilisation spécifique, les utilisateurs peuvent également télécharger des caractères et entrer du texte ou de l'audio qu'ils veulent "boucher" dans leur "synchronisation des lèvres". Le système peut faire les personnages de l'image "parler" ou "chanter". Dans le même temps, Hunyuan a également lancé la fonction "axée sur l'action", où les utilisateurs peuvent générer des vidéos de danse correspondantes en un clic pour améliorer la diversité et le plaisir de la création.
Il convient de mentionner que le modèle vidéo Open Source Tusheng a été publié dans les communautés de développeurs traditionnelles telles que GitHub et HuggingFace. Les développeurs peuvent télécharger du contenu connexe pour l'expérimentation et le développement. Le contenu open source comprend des poids de modèle, des codes d'inférence et des codes de formation LORA, qui offrent aux développeurs plus de possibilités de former des modèles LORA exclusifs sur cette base.
Depuis l'open source, la popularité du modèle de génération de HuggingFace a augmenté. En décembre de l'année dernière, il a dépassé le sommet de la liste des tendances de Huggingface, et le nombre d'étoiles sur Github a dépassé 8,9k. De nombreux développeurs fabriquent également activement des plug-ins et des modèles dérivés pour Hunyuanvideo et ont accumulé plus de 900 versions dérivées. Le modèle graphique littéraire de Hunyuan DIT open source a également bien fonctionné, avec plus de 1 600 modèles dérivés.
Site officiel: https://video.hunyuan.tencent.com/
github: https://github.com/tencent/hunyuanvideo-i2v
Huggingface: https://huggingface.co/tencent/hunyuanvideo-i2v