近日,阶跃星辰与吉利汽车集团联合宣布了一项重大技术突破——开源两款阶跃Step系列多模态大模型,分别为Step-Video-T2V视频生成模型和Step-Audio语音模型。这一合作标志着人工智能技术在视频生成和语音处理领域的又一次飞跃,为开发者提供了强大的工具支持。
其中,阶跃Step-Video-T2V视频生成模型以其300亿的参数量和卓越的性能,在全球范围内处于领先地位。该模型能够直接生成204帧、540P分辨率的高质量视频,确保生成内容的信息密度和一致性。评测结果显示,Step-Video-T2V在指令遵循、运动平滑性、物理合理性以及美感度等方面表现优异,显著超越了现有的开源视频模型。

目前,这两款模型已在跃问App上线,开发者可以免费体验并提供宝贵建议。阶跃Step-Video-T2V视频生成模型在复杂运动、美感人物和视觉想象力等方面展现了卓越的生成能力。它能够精准理解指令,帮助视频创作者高效实现创意呈现。无论是优雅的芭蕾舞、激烈的空手道对抗,还是紧张的羽毛球比赛和高速翻转的跳水动作,Step-Video-T2V都能生成真实且符合物理规律的画面。
此外,该模型还支持多种镜头运动方式和景别切换,能够生成大幅度运镜的视觉效果。生成的人物形象更加逼真、生动,细节丰富,表情自然,为视频创作提供了更多可能性。
开发者可以通过以下链接获取更多技术细节和资源:
GitHub: https://github.com/stepfun-ai/Step-Audio
Hugging Face: https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
技术报告: https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf