Tencent baru-baru ini mengumumkan open source dari kerangka kerja generasi gambar-ke-video terbarunya-HUNYUANVideo-I2V. Langkah ini menandai langkah penting bagi Tencent untuk mempromosikan pengembangan komunitas open source, terutama setelah keberhasilan open source hunyuanvideo, yang selanjutnya menunjukkan kemampuan inovatifnya di bidang kecerdasan buatan.

Hunyuanvideo-I2V menggabungkan teknologi pembuatan video paling canggih saat ini, yang dapat mengubah gambar statis menjadi konten video yang jelas, memberi para pembuat kemungkinan yang lebih kreatif. Pengguna hanya perlu mengunggah gambar dan secara singkat menggambarkan efek dinamis gambar untuk menghasilkan video pendek lima detik. Fitur dari model ini adalah tidak hanya memungkinkan gambar statis untuk "bergerak", tetapi juga dapat secara otomatis dicocokkan dengan efek suara latar belakang, sangat meningkatkan kesenangan dan daya tarik video.
HUNYUANVIDEO-I2V menggunakan model bahasa multimodal pra-terlatih sebagai encoder teks, secara signifikan meningkatkan kemampuan model untuk memahami konten semantik dari gambar input. Ini berarti bahwa gambar input pengguna dapat menghasilkan penanda gambar semantik melalui model, yang dikombinasikan dengan penanda potensial video, sehingga mencapai perhitungan perhatian penuh yang lebih komprehensif. Dengan cara ini, sistem dapat memaksimalkan sinergi antara modalitas gambar dan teks, memastikan bahwa konten video yang dihasilkan dari gambar statis lebih koheren dan realistis.
Untuk memungkinkan lebih banyak pengguna mengalami fungsi ini, situs web video Hunyuan AI resmi telah diluncurkan, dan pengguna dapat secara langsung mengakses situs web untuk beroperasi. Selain itu, perusahaan dan pengembang juga dapat berlaku untuk antarmuka API melalui Tencent Cloud untuk mengintegrasikan teknologi ini ke dalam aplikasi mereka. Model video Tusheng ini merupakan kelanjutan dari karya open source dari model video Hunyuan Wensheng. Parameter model total mencapai 13 miliar, yang cocok untuk menghasilkan berbagai jenis karakter dan adegan, mencakup video realistis, karakter animasi, dan karakter CGI.
Selama proses penggunaan yang spesifik, pengguna juga dapat mengunggah karakter dan memasukkan teks atau audio yang ingin mereka "mulut" dalam "sinkronisasi bibir" mereka. Sistem dapat membuat karakter dalam gambar "Bicara" atau "bernyanyi". Pada saat yang sama, Hunyuan juga telah meluncurkan fungsi "berbasis aksi", di mana pengguna dapat menghasilkan video tari yang sesuai dengan satu klik untuk meningkatkan keragaman dan kesenangan penciptaan.
Perlu disebutkan bahwa model video Tusheng open source telah dirilis di komunitas pengembang utama seperti GitHub dan Huggingface. Pengembang dapat mengunduh konten terkait untuk eksperimen dan pengembangan. Konten open source mencakup bobot model, kode inferensi, dan kode pelatihan LORA, yang memberi pengembang lebih banyak kemungkinan untuk melatih model LORA eksklusif berdasarkan ini.
Sejak open source, popularitas model generasi Huggingface telah meningkat. Pada bulan Desember tahun lalu, ia berada di puncak daftar tren Huggingface, dan jumlah bintang di GitHub telah melebihi 8,9 ribu. Banyak pengembang juga secara aktif membuat plug-in dan model turunan untuk hUNYUANVideo, dan telah mengumpulkan lebih dari 900 versi turunan. Model grafis sastra open source hUNYUAN DIT sebelumnya juga berkinerja baik, dengan lebih dari 1.600 model turunan.
Situs web resmi: https://video.hunyuan.tencent.com/
Github: https://github.com/tencent/hunyuanvideo-i2v
Huggingface: https://huggingface.co/tencent/hunyuanvideo-i2v