최근 Yuexingchen과 Geely Automobile Group은 공동으로 주요 기술 혁신-2 단계 단계 시리즈 멀티 모달 모델, 즉 Step-Video-T2V 비디오 생성 모델 및 스텝 아우 디오 음성 모델을 공동으로 발표했습니다. 이 협업은 비디오 생성 및 음성 처리 분야에서 또 다른 도약을 표시하여 개발자에게 강력한 도구 지원을 제공합니다.
그 중에서도 STEP-Video-T2V 비디오 생성 모델은 300 억 개의 매개 변수와 우수한 성능으로 세계를 이끌고 있습니다. 이 모델은 204 프레임과 540p 해상도로 고품질 비디오를 직접 생성하여 생성 된 컨텐츠의 정보 밀도와 일관성을 보장 할 수 있습니다. 평가 결과는 STEP-Video-T2V가 기존 오픈 소스 비디오 모델을 크게 능가하는 명령 준수, 모션 매끄러움, 물리적 합리성 및 미학에서 훌륭하게 수행 함을 보여줍니다.

현재이 두 모델은 이제 Yuewen 앱에서 사용할 수 있으며 개발자는 무료로 경험하고 귀중한 제안을 제공 할 수 있습니다. STEP-VIEDO-T2V 비디오 생성 모델은 복잡한 움직임, 아름다운 캐릭터 및 시각적 상상력에서 탁월한 생성 능력을 보여줍니다. 지침을 정확하게 이해하고 비디오 제작자가 창의적인 프리젠 테이션을 효율적으로 달성하는 데 도움이 될 수 있습니다. 우아한 발레, 강렬한 가라테 대결 또는 긴장된 배드민턴 게임 및 고속 플립 다이빙이든, Step-Video-T2V는 실제적이고 육체적으로 일관된 사진을 생성 할 수 있습니다.
또한이 모델은 다양한 렌즈 운동 모드 및 장면 유형을 지원하여 대규모 거울 운동의 시각적 효과를 생성합니다. 생성 된 캐릭터는 풍부한 세부 사항과 자연스러운 표현을 통해보다 현실적이고 생생하며 비디오 제작에 더 많은 가능성을 제공합니다.
개발자는 다음 링크를 통해 더 많은 기술적 세부 사항과 리소스를 얻을 수 있습니다.
github : https://github.com/stepfun-ai/step-audio
포옹 얼굴 : https://huggingface.co/collections/stepfun-ai/step-audio-67b33acccf45735bb21131b0b
기술 보고서 : https://github.com/stepfun-ai/step-audio/blob/main/assets/step-audio.pdf