Недавно Step Yuexingchen и Geely Automobile Group совместно анонсировали крупный технологический прорыв-мультимодальные модели с двумя шагами серии, а именно модель генерации видео-генерации Step-T2V и модель голоса Step-Audio. Это сотрудничество отмечает еще один скачок в области генерации видео и обработки голоса, предоставляя разработчикам мощную поддержку инструментов.
Среди них модель генерации видео-видео-Video-T2V лидирует в мире с его 30 миллиардами параметров и отличной производительности. Эта модель может напрямую генерировать высококачественные видео с 204 кадрами и разрешением 540p, обеспечивая плотность информации и согласованность сгенерированного контента. Результаты оценки показывают, что Step-Video-T2V превосходно работает в соблюдении команд, плавности движения, физической рациональности и эстетике, значительно превосходя существующую видео-модель с открытым исходным кодом.

В настоящее время эти две модели теперь доступны в приложении Yuewen, и разработчики могут испытывать его бесплатно и предоставлять ценные предложения. Модель генерации видео-Video-T2V демонстрирует превосходную способность поколения в сложных движениях, красивых персонажах и визуальном воображении. Он может точно понять инструкции и помочь создателям видео эффективно достичь творческой презентации. Будь то элегантный балет, интенсивная конфронтация каратэ, или напряженные игры в бадминтоне и высокоскоростное дайвинг, Step-Video-T2V может генерировать реальные и физически последовательные картины.
Кроме того, модель также поддерживает различные режимы движения линзы и типы сцен для создания визуальных эффектов крупномасштабного зеркального движения. Сгенерированные персонажи являются более реалистичными и яркими, с богатыми деталями и естественными выражениями, предоставляя больше возможностей для создания видео.
Разработчики могут получить больше технических деталей и ресурсов по следующим ссылкам:
GitHub: https://github.com/stepfun-ai/step-audio
Обнимающееся лицо: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
Технический отчет: https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf