Recientemente, Step Yuexingchen y Geely Automobile Group anunciaron conjuntamente un importante avance tecnológico: modelos multimodales de dos pasos de la serie Paso, a saber, el modelo de generación de videos Step-Video-T2V y el modelo de voz de Audio Step. Esta colaboración marca otro salto en los campos de la generación de videos y el procesamiento de voz, proporcionando a los desarrolladores un poderoso soporte para herramientas.
Entre ellos, el modelo de generación de videos Step-Video-T2V está liderando el mundo con sus 30 mil millones de parámetros y un excelente rendimiento. Este modelo puede generar directamente videos de alta calidad con 204 cuadros y resolución de 540p, asegurando la densidad de información y la consistencia del contenido generado. Los resultados de la evaluación muestran que el paso-video-T2V funciona excelentemente en el cumplimiento del comando, la suavidad del movimiento, la racionalidad física y la estética, superando significativamente el modelo de video de código abierto existente.

En la actualidad, estos dos modelos ahora están disponibles en la aplicación Yuewen, y los desarrolladores pueden experimentarlo de forma gratuita y proporcionar sugerencias valiosas. El modelo de generación de videos Step-Video-T2V demuestra una excelente capacidad de generación en movimientos complejos, personajes hermosos e imaginación visual. Puede comprender con precisión las instrucciones y ayudar a los creadores de video a lograr una presentación creativa de manera eficiente. Ya sea un ballet elegante, una confrontación de karate intensa o los tensos juegos de bádminton y el buceo de alta velocidad, el paso-video-Video-T2V puede generar imágenes reales y físicamente consistentes.
Además, el modelo también admite una variedad de modos de movimiento de lentes y tipos de escenas para generar efectos visuales del movimiento de espejo a gran escala. Los personajes generados son más realistas y vívidos, con detalles ricos y expresiones naturales, proporcionando más posibilidades para la creación de video.
Los desarrolladores pueden obtener más detalles y recursos técnicos a través de los siguientes enlaces:
Github: https://github.com/stepfun-ai/step-audio
Cara de abrazo: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Informe técnico: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf