A Tencent anunciou recentemente o código aberto de sua mais recente estrutura de geração de imagem para vídeo-HunyuanVideo-I2V. Esse movimento marca um passo importante para a Tencent promover o desenvolvimento de comunidades de código aberto, especialmente após seu sucesso de código aberto HunyuanVideo, que demonstra ainda mais suas capacidades inovadoras no campo da inteligência artificial.

Atualmente, HunyuanVideo-I2V combina a tecnologia de geração de vídeo mais avançada, que pode transformar imagens estáticas em conteúdo vívido de vídeo, proporcionando aos criadores possibilidades mais criativas. Os usuários precisam apenas fazer upload de uma imagem e descrever brevemente o efeito dinâmico da imagem para gerar um vídeo curto de cinco segundos. O recurso deste modelo é que ele não apenas permite que as imagens estáticas "movam", mas também podem ser correspondidas automaticamente aos efeitos sonoros em segundo plano, aumentando bastante a diversão e a atratividade do vídeo.
HunyuanVideo-I2V utiliza um modelo de linguagem grande multimodal pré-treinado como um codificador de texto, aumentando significativamente a capacidade do modelo de entender o conteúdo semântico da imagem de entrada. Isso significa que as imagens de entrada do usuário podem gerar marcadores de imagem semânticos através do modelo, que são combinados com os possíveis marcadores em potencial, alcançando assim um cálculo de atenção total mais abrangente. Dessa forma, o sistema pode maximizar a sinergia entre a modalidade de imagem e texto, garantindo que o conteúdo de vídeo gerado a partir de imagens estáticas seja mais coerente e realista.
Para permitir que mais usuários experimentem essa função, o site oficial de vídeo da Hunyuan AI foi lançado e os usuários podem acessar diretamente o site para operar. Além disso, empresas e desenvolvedores também podem solicitar interfaces de API através da Tencent Cloud para integrar essa tecnologia em seus aplicativos. Este modelo de vídeo Tusheng é uma continuação do trabalho de código aberto do modelo de vídeo hunyuan Wensheng. Os parâmetros totais do modelo atingem 13 bilhões, adequados para gerar vários tipos de caracteres e cenas, abrangendo vídeos realistas, personagens de animação e caracteres CGI.
Durante o processo de uso específico, os usuários também podem fazer upload de caracteres e inserir texto ou áudio que desejam "boca" em sua "sincronização labial". O sistema pode fazer com que os personagens na imagem "falem" ou "cantar". Ao mesmo tempo, Hunyuan também lançou a função "acionada", onde os usuários podem gerar vídeos de dança correspondentes com um clique para melhorar a diversidade e a diversão da criação.
Vale ressaltar que o modelo de vídeo Tusheng de código aberto foi lançado em comunidades de desenvolvedores convencionais, como Github e Huggingface. Os desenvolvedores podem baixar conteúdo relacionado para experimentação e desenvolvimento. O conteúdo de código aberto inclui pesos do modelo, códigos de inferência e códigos de treinamento da LORA, que fornecem aos desenvolvedores mais possibilidades para treinar modelos exclusivos da LORA nessa base.
Desde o código aberto, a popularidade do modelo de geração do Huggingface tem aumentado. Em dezembro do ano passado, liderou o topo da lista de tendências da Huggingface, e o número de estrelas no Github excedeu 8,9k. Muitos desenvolvedores também estão criando ativamente plug-ins e modelos derivados para HunyuanVideo e acumularam mais de 900 versões derivadas. O modelo gráfico literário de hunyuan dit de código aberto também teve um bom desempenho, com mais de 1.600 modelos derivados.
Site oficial: https://video.hunyuan.tencent.com/
Github: https://github.com/tencent/hunyuanvideo-i2v
Huggingface: https://huggingface.co/tencent/hunyuanvideo-i2v