Kürzlich kündigte Step Yuexingchen und Geely Automobile Group gemeinsam einen multimodalen Modelle mit zwei Stufen-Stufen-Serien an, nämlich Step-VIDEO-T2V-Videogenerierungsmodell und Step-Audio-Sprachmodell. Diese Zusammenarbeit markiert einen weiteren Sprung in den Feldern der Videogenerierung und der Sprachverarbeitung und bietet Entwicklern eine leistungsstarke Tool -Unterstützung.
Unter ihnen führt das Stiefvideo-T2V-Videogenerierungsmodell mit seinen 30 Milliarden Parametern und einer hervorragenden Leistung auf die Welt. Dieses Modell kann direkt hochwertige Videos mit 204 Bildern und 540p-Auflösung generieren, um die Informationsdichte und Konsistenz des generierten Inhalts sicherzustellen. Die Evaluierungsergebnisse zeigen, dass Step-Video-T2V in Befehlskonformität, Bewegungsiegel, physikalische Rationalität und Ästhetik hervorragend funktioniert und das vorhandene Open-Source-Videomodell erheblich übertrifft.

Gegenwärtig sind diese beiden Modelle jetzt in Yuewen App verfügbar, und Entwickler können sie kostenlos erleben und wertvolle Vorschläge machen. Das Step-Video-T2V-Videogenerierungsmodell zeigt eine hervorragende Fähigkeit zur Generation in komplexen Bewegungen, schönen Charakteren und visuellen Fantasie. Es kann die Anweisungen genau verstehen und Video -Erstellern helfen, eine kreative Präsentation effizient zu erreichen. Egal, ob es sich um ein elegantes Ballett, eine intensive Karate-Konfrontation oder angespannte Badminton-Spiele und Hochgeschwindigkeits-Flip-Tauchen handelt, Stiefvideo-T2V kann echte und physikalisch konsequente Bilder erzeugen.
Darüber hinaus unterstützt das Modell auch eine Vielzahl von Objektivbewegungsmodi und Szenentypen, um visuelle Effekte von groß angelegten Spiegelbewegungen zu erzeugen. Die erzeugten Charaktere sind realistischer und lebendiger, mit reichhaltigen Details und natürlichen Ausdrücken und bieten mehr Möglichkeiten für die Videoerstellung.
Entwickler können über die folgenden Links mehr technische Details und Ressourcen erhalten:
Github: https://github.com/stepfun-ai/step-audio
Umarmung Gesicht: https://huggingface.co/collections/stepfun-ai/step-audio-67b33Accf45735bb21131b0b
Technischer Bericht: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf