Recentemente, o STEP Yuexingchen e o Geely Automobile Group anunciaram em conjunto um grande avanço tecnológico-modelos multimodais da série de duas etapas, o modelo de geração de vídeo de vide-video-T2V e modelo de voz de Audio. Essa colaboração marca outro salto nos campos da geração de vídeo e processamento de voz, fornecendo aos desenvolvedores poderosos suporte para ferramentas.
Entre eles, o modelo de geração de vídeo de vide-video-T2V está liderando o mundo com seus 30 bilhões de parâmetros e excelente desempenho. Esse modelo pode gerar diretamente vídeos de alta qualidade com 204 quadros e resolução de 540p, garantindo a densidade da informação e a consistência do conteúdo gerado. Os resultados da avaliação mostram que o Step-Video-T2V tem um desempenho excelentemente em conformidade com o comando, suavidade de movimento, racionalidade física e estética, superando significativamente o modelo de vídeo de código aberto existente.

Atualmente, esses dois modelos estão agora disponíveis no aplicativo Yuewen, e os desenvolvedores podem experimentá -lo gratuitamente e fornecer sugestões valiosas. O modelo de geração de vídeo de vide-video-T2V demonstra excelente capacidade de geração em movimentos complexos, personagens bonitos e imaginação visual. Ele pode entender com precisão as instruções e ajudar os criadores de vídeo a alcançar a apresentação criativa com eficiência. Seja o elegante balé, o confronto intenso de karatê ou os jogos tensos de badminton e mergulho em alta velocidade, o vide-video-t2V pode gerar imagens reais e fisicamente consistentes.
Além disso, o modelo também suporta uma variedade de modos de movimento da lente e tipos de cenas para gerar efeitos visuais do movimento espelhado em larga escala. Os caracteres gerados são mais realistas e vívidos, com detalhes ricos e expressões naturais, proporcionando mais possibilidades de criação de vídeo.
Os desenvolvedores podem obter mais detalhes e recursos técnicos através dos seguintes links:
Github: https://github.com/stepfun-ai/step-audio
Abraçando o rosto: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Relatório Técnico: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf