Недавно Tencent объявил о открытом исходном источнике своей новейшей структуры генерации изображений-Video-Hunyuanvide-I2V. Этот шаг знаменует собой важный шаг для Tencent, чтобы способствовать развитию сообществ с открытым исходным кодом, особенно после успешного с открытым исходным кодом Hunyuanvideo, что дополнительно демонстрирует его инновационные возможности в области искусственного интеллекта.

Hunyuanvideo-I2V объединяет наиболее продвинутую технологию генерации видео, которая может превратить статические изображения в яркий видеоконтент, предоставляя создателям более творческие возможности. Пользователям необходимо загрузить картинку и кратко описать динамический эффект изображения, чтобы создать пятисекундное короткое видео. Особенность этой модели заключается в том, что она не только позволяет статическим изображениям «перемещаться», но и может автоматически соответствовать фоновым звуковым эффектам, значительно повышая веселье и привлекательность видео.
Hunyuanvide-I2V использует предварительно обученную мультимодальную большую языковую модель в качестве текстового кодера, значительно улучшая способность модели понимать семантическое содержание входного изображения. Это означает, что пользовательские входные изображения могут генерировать семантические маркеры изображения через модель, которые в сочетании с видео потенциальными маркерами, тем самым достигая более полного расчета полного внимания. Таким образом, система может максимизировать синергию между изображением и модальностью текста, гарантируя, что видеоконтент, генерируемый из статических изображений, был более согласованным и реалистичным.
Чтобы позволить большему количеству пользователей испытать эту функцию, был запущен официальный веб -сайт Hunyuan Ai Video, и пользователи могут напрямую доступ к веб -сайту для работы. Кроме того, предприятия и разработчики также могут подать заявку на интерфейсы API через Tencent Cloud для интеграции этой технологии в свои приложения. Эта видео -модель Tusheng является продолжением работы с открытым исходным кодом видео -модели видео -модели Hunyuan Wensheng. Общие параметры модели достигают 13 миллиардов, что подходит для создания различных типов символов и сцен, охватывающих реалистичные видео, анимационные символы и символы CGI.
Во время конкретного процесса использования пользователи также могут загружать символы и вводить текст или аудио, которые они хотят «рот» в своем «синхронизации губ». Система может заставить персонажей на картинке «говорить» или «петь». В то же время Hunyuan также запустил функцию «управляемой действиями», где пользователи могут генерировать соответствующие танцевальные видео с одним щелчком, чтобы улучшить разнообразие и удовольствие от создания.
Стоит отметить, что видео -модель Tusheng с открытым исходным кодом была выпущена в основных сообществах разработчиков, таких как Github и Huggingface. Разработчики могут скачать связанный контент для экспериментов и разработки. Контент с открытым исходным кодом включает в себя веса модели, коды вывода и учебные коды LORA, которые предоставляют разработчикам больше возможностей для обучения эксклюзивных моделей LORA на этой основе.
С момента открытого исходного кода, популярность модели поколений Huggingface на возрасте. В декабре прошлого года он превысил вершину списка тенденций Huggingface, и количество звезд на Github превысило 8,9 тыс. Многие разработчики также активно делают плагины и производные модели для Hunyuanvideo и накапливают более 900 производных версий. Литературная графическая модель Hunyuan DIT с открытым исходным кодом также хорошо показала хорошие результаты с более чем 1600 производными моделями.
Официальный веб -сайт: https://video.hunyuan.tencent.com/
GitHub: https://github.com/tencent/hunyuanvide-i2v
Huggingface: https://huggingface.co/tencent/hunyuanvide-i2v