Récemment, Step Yuexingchen et Geely Automobile Group ont annoncé conjointement une percée technologique majeure - Modèles multimodaux de série à deux étapes, à savoir le modèle de génération de vidéos Step-Video-T2V et le modèle de voix audio. Cette collaboration marque un autre saut dans les domaines de la génération de vidéos et du traitement vocal, offrant aux développeurs un puissant support d'outils.
Parmi eux, le modèle de génération de vidéo Step-Video-T2V mène le monde avec ses 30 milliards de paramètres et ses excellentes performances. Ce modèle peut générer directement des vidéos de haute qualité avec 204 images et une résolution 540p, garantissant la densité et la cohérence des informations du contenu généré. Les résultats de l'évaluation montrent que Step-Video-T2V fonctionne parfaitement dans la conformité des commandements, la douceur du mouvement, la rationalité physique et l'esthétique, dépassant considérablement le modèle vidéo open source existant.

À l'heure actuelle, ces deux modèles sont désormais disponibles sur l'application Yuewen, et les développeurs peuvent en faire l'expérience gratuitement et fournir des suggestions précieuses. Le modèle de génération de vidéo Step-vidéo-T2v montre une excellente capacité de génération dans des mouvements complexes, de beaux personnages et une imagination visuelle. Il peut comprendre avec précision les instructions et aider les créateurs de vidéos à réaliser efficacement la présentation créative. Qu'il s'agisse d'un ballet élégant, d'une confrontation intense de karaté ou de jeux de badminton tendus et de plongée à haut débit, de la vidéo-T2v de Step-Video peut générer des images réelles et physiquement cohérentes.
De plus, le modèle prend également en charge une variété de modes de mouvement de lentilles et de types de scène pour générer des effets visuels du mouvement miroir à grande échelle. Les personnages générés sont plus réalistes et vifs, avec des détails riches et des expressions naturelles, offrant plus de possibilités de création vidéo.
Les développeurs peuvent obtenir plus de détails et de ressources techniques via les liens suivants:
Github: https://github.com/stepfun-ai/step-audio
Face étreinte: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Rapport technique: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf