최근 HPC-AI Tech는 일반적인 교육 비용의 약 10 분의 1만으로 상업용 품질을 달성 할 수있는 획기적인 비디오 AI 시스템 인 Open-Sora 2.0의 출시를 발표했습니다. 이 진행 상황은 언어 모델에서 볼 수있는 효율성 이득과 비슷한 리소스 집약적 인 비디오 AI 필드에서 패러다임 전환이 가능합니다.
Movie Gen 및 Step-Video-T2V와 같은 기존의 고품질 비디오 세대 시스템은 교육에 수백만 달러가 필요할 수 있지만 Open-Sora2.0의 교육 지출은 약 $ 200,000입니다. 상당한 비용 절감에도 불구하고 테스트에 따르면 출력 품질은 활주로 Gen-3alpha 및 Hunyuanvideo와 같은 확립 된 상업 시스템과 비교할 수 있습니다. 이 시스템은 훈련을 위해 224 NVIDIA H200GPUS를 사용합니다.
팁 : "두 명의 여성이 베이지 색 소파에 앉아 있는데, 방은 따뜻하고 편안하며, 배경에 벽돌 벽이 있습니다. 그들은 친밀한 미드 스코틀 샷에서 레드 와인을 축하하기 위해 행복하게 이야기하고 미소를 짓고 안경을 들고 있습니다." | 비디오 : HPC-AI 기술
Open-Sora2.0은 저해상도 비디오부터 시작하여 새로운 3 단계 교육 프로세스를 통해 효율성을 달성하고 점차 높은 해상도를 개선합니다. 플럭스와 같은 통합 사전 훈련 된 이미지 모델은 리소스 활용을 추가로 최적화합니다. 핵심에는 비디오 DC-PAE Autoencoder가 있으며, 이는 전통적인 방법에 비해 우수한 압축 속도를 제공합니다. 이 혁신은 주목할만한 5.2 배 빠른 교육 속도와 10x 이상의 비디오 생성 속도로 해석됩니다. 압축 속도가 높을수록 출력 세부 사항이 약간 줄어들지 만 비디오 제작 프로세스가 크게 높아집니다.
팁 : "토마토는 상추 한 조각, 목초지 소스 폭포 아래, 과장된 서핑 및 부드러운 파도 효과는 3D 애니메이션의 재미를 강조합니다." | 비디오 : HPC-AI 기술
이 오픈 소스 시스템은 텍스트 설명 및 단일 이미지에서 비디오를 생성 할 수 있으며 사용자는 모션 스코어링 기능을 통해 생성 된 클립에서 운동 강도를 제어 할 수 있습니다. HPC-AI 기술에서 제공하는 예는 현실적인 대화 및 기발한 애니메이션을 포함한 다양한 시나리오를 보여줍니다.
그러나 Open-Sora 2.0은 현재 해상도 (768x768 픽셀)와 최대 비디오 지속 시간 (5 초 또는 128 프레임)의 제한 사항이 있으며 OpenAI의 SORA와 같은 주요 모델의 기능보다 열등합니다. 그럼에도 불구하고 시각적 품질, 신호 정확도 및 모션 프로세싱과 같은 주요 영역에서의 성능은 상업 표준에 접근하고 있습니다. Open-Sora2.0의 vbench 점수는 이제 Openai의 Sora보다 0.69%에 불과하며 이전 버전의 4.52%보다 크게 개선된다는 점은 주목할 가치가 있습니다.
팁 : "많은 인체 형태의 버섯이 어두운 마법의 숲에서 디스코 파티를 개최하며, 번쩍이는 네온 조명과 과장된 댄스 단계, 부드러운 질감과 반사 표면이 재미있는 3D 모양을 강조합니다." | 비디오 : HPC-AI 기술
개방형 SORA2.0의 비용 효율적인 전략은 언어 모델에서 "심각한 순간"을 반향합니다. 개선 된 교육 방법으로 오픈 소스 시스템이 상업용 시스템보다 훨씬 저렴한 비용으로 상업 급 성능을 달성 할 수있었습니다. 이 개발은 비디오 AI 필드의 가격에 하락을 줄일 수 있으며, 이는 현재 높은 컴퓨팅 수요로 인해 몇 초로 청구됩니다.

교육 비용 비교 : Open-Sora2.0은 약 200,000 달러, 영화 Gen의 비용은 250 만 달러이며 STEP-Video-T2V는 백만 달러입니다. | 사진 : HPC-AI 기술
이러한 진보에도 불구하고 오픈 소스와 상업용 비디오 AI의 성능 격차는 여전히 언어 모델의 성능 차이보다 크며, 분야의 지속적인 기술적 문제를 강조합니다. Open-Sora2.0은 이제 Github의 오픈 소스 프로젝트로 제공됩니다.