Tencent kündigte kürzlich die Open Source des neuesten Bild-zu-Video-Generations-Frameworks an-Hunyuanvideo-I2V. Dieser Schritt ist ein wichtiger Schritt für Tencent, um die Entwicklung von Open -Source -Gemeinschaften zu fördern, insbesondere nach dem erfolgreichen Open -Source -Hunyuanvideo, der seine innovativen Fähigkeiten im Bereich der künstlichen Intelligenz weiter demonstriert.

Hunyuanvideo-I2V kombiniert derzeit die fortschrittlichste Videogenerierungstechnologie, die statische Bilder in lebendige Videoinhalte verwandeln und den Ersteller kreativere Möglichkeiten bietet. Benutzer müssen nur ein Bild hochladen und kurz den dynamischen Effekt des Bildes beschreiben, um ein Kurzvideo mit fünf Sekunden zu generieren. Das Merkmal dieses Modells ist, dass die statischen Bilder nicht nur "sich bewegen" können, sondern auch automatisch mit Hintergrundoundeffekten übereinstimmen kann, wodurch die Spaß und die Attraktivität des Videos erheblich verbessert werden können.
Hunyuanvideo-I2V verwendet ein vorgebildetes multimodales großes Sprachmodell als Textcodierer, wodurch die Fähigkeit des Modells erheblich verbessert wird, den semantischen Inhalt des Eingabebildes zu verstehen. Dies bedeutet, dass die Benutzereingabebilder semantische Bildmarkierungen über das Modell generieren können, die mit Videopotentialmarkierungen kombiniert werden und so eine umfassendere Berechnung der vollständigen Aufmerksamkeit erhalten. Auf diese Weise kann das System die Synergie zwischen Bild- und Textmodalität maximieren und sicherstellen, dass der aus statische Bilder generierte Videoinhalte kohärenter und realistischer ist.
Um mehr Benutzer zu ermöglichen, diese Funktion zu erleben, wurde die offizielle Hunyuan AI -Video -Website gestartet, und Benutzer können direkt auf die Website zugreifen, um zu arbeiten. Darüber hinaus können Unternehmen und Entwickler über Tencent Cloud auch API -Schnittstellen beantragen, um diese Technologie in ihre Anwendungen zu integrieren. Dieses Tusheng -Videomodell ist eine Fortsetzung der Open -Source -Werke von Hunyuan Wensheng Video -Modell. Die Gesamtmodellparameter erreichen 13 Milliarden, was für die Erzeugung verschiedener Arten von Zeichen und Szenen geeignet ist und realistische Videos, Animationszeichen und CGI -Zeichen abdeckt.
Während des spezifischen Nutzungsprozesses können Benutzer auch Zeichen hochladen und Text oder Audio eingeben, die sie in ihrem "Lippensynchronisieren" "Mund" möchten. Das System kann die Charaktere im Bild "sprechen" oder "singen". Gleichzeitig hat Hunyuan auch die "Action-gesteuerte" Funktion auf den Markt gebracht, bei der Benutzer entsprechende Tanzvideos mit einem Klick generieren können, um die Vielfalt und den Spaß der Schöpfung zu verbessern.
Es ist erwähnenswert, dass das Open -Source -Videomodell Tusheng in Mainstream -Entwicklergemeinschaften wie Github und Huggingface veröffentlicht wurde. Entwickler können verwandte Inhalte für Experimente und Entwicklung herunterladen. Open Source -Inhalt umfasst Modellgewichte, Inferenzcodes und LORA -Trainingscodes, die Entwicklern mehr Möglichkeiten bieten, exklusive Lora -Modelle auf dieser Grundlage zu schulen.
Seit Open Source hat die Popularität des Generationsmodells von Huggingface zugenommen. Im Dezember letzten Jahres erreichte es die Trendliste von Huggingface, und die Anzahl der Sterne auf GitHub hat 8,9.000 überschritten. Viele Entwickler erstellen auch aktiv Plug-Ins und Derivatmodelle für Hunyuanvideo und haben mehr als 900 Derivatversionen angesammelt. Das Open -Source -Modell hunyuan dit literarisches Grafikmodell hat sich früher auch gut mit mehr als 1.600 Derivatemodellen herausgestellt.
Offizielle Website: https://video.hunyuan.tencent.com/
Github: https://github.com/tencent/hunyuanvideo-i2v
Huggingface: https://huggingface.co/tencent/hunyuanvideo-i2v