비디오 세대 분야에서 Openai Sora는 높은 교육 비용과 탁월한 성능에 대한 업계 벤치 마크로 여겨져 왔습니다. 그러나 Luchen Technology는 최근 비디오 생성 모델 Open-Sora2.0의 오픈 소스를 발표했으며, 이는 의심 할 여지없이 업계에서 큰 감각을 일으켰습니다. Open-Sora2.0은 최고 모델에 가까운 교육 비용과 성능이 매우 낮은 비디오 생성 기술의 새로운 초점이되었습니다.
Open-Sora2.0의 교육 비용은 20 만 달러에 불과하며 224 GPU의 투자와 동일하지만 110 억 파라미터의 상업용 수준 비디오 생성 모델을 성공적으로 훈련 시켰습니다. 이 성과는 Luchen Technology의 기술 혁신을 보여줄뿐만 아니라 비디오 생성 분야에 새로운 가능성을 제공합니다.

Open-Sora2.0은 Openai Sora보다 훨씬 낮지 만 성능은 그 이상입니다. Open-Sora2.0은 권위있는 리뷰 vbench 및 사용자 선호 테스트에서 인상적으로 수행되었으며 여러 주요 메트릭을 훈련시키는 데 수백만 달러의 비공개 소스 모델과 경쟁 할 수도 있습니다. 특히 vbench 평가에서 Open-Sora2.0과 Openai Sora 사이의 성능 간격은 이전 4.52%에서 0.69%로 크게 좁아졌으며 거의 포괄적 인 성능 파업을 달성했습니다.
더 흥미로운 점은 Open-Sora2.0 점수가 Vbench에서 Tencent의 Hunyuanvideo를 능가하여 비디오 생성 기술의 강력한 강점을 보여줍니다. 이 성과는 Open-Sora2.0의 기술적 이점을 증명할뿐만 아니라 오픈 소스 비디오 생성 기술에 대한 새로운 벤치 마크를 설정합니다.
사용자 기본 설정 검토에서 Open-Sora2.0에는 시각적 성능, 텍스트 일관성 및 액션 성능의 세 가지 주요 차원에서 오픈 소스 SOTA 모델 Hunyuanvideo와 비즈니스 모델 활주로 Gen-3alpha를 능가하는 두 가지 지표가 있습니다. 이 성과는 비디오 생성 분야에서 오픈 -SORA2.0의 주요 위치를 더욱 통합합니다.

Open-Sora2.0이 이러한 저렴한 비용으로 고성능을 달성 할 수있는 이유는 일련의 기술 혁신 및 최적화 전략 때문입니다. 우선, Open-Sora2.0은 Open-Sora1.2의 설계 아이디어를 계속하고, 3D 자동 인코더 및 플로우 매칭 교육 프레임 워크를 채택하며, 비디오 생성의 품질을 더욱 향상시키기 위해 3D 완전주의 메커니즘을 도입합니다.
궁극적 인 비용 최적화를 추구하기 위해 Open-SORA2.0은 여러 측면에서 시작합니다. 엄격한 데이터 스크리닝은 고품질 교육 데이터 입력을 보장하고, 운동 정보를 효율적으로 학습하기위한 저해상도 교육에 우선 순위가 부여되며, 모델 변환을 가속화하기위한 효율적인 병렬 교육 방식 및 시스템 수준을 조합하여 효율적인 병렬 교육 방식을 채택하기위한 교육 그래프 비디오 작업에 우선 순위가 부여됩니다.
시장에서 10B 이상의 오픈 소스 비디오 모델에 대한 단일 교육 비용은 종종 수백만 달러이며 Open-SORA2.0은이 비용을 5-10 배 줄입니다. 이러한 혁신은 고품질 비디오 생성의 임계 값을 낮출뿐만 아니라 더 많은 개발자에게 비디오 생성 기술의 연구 및 개발에 참여할 수있는 기회를 제공합니다.
더욱 칭찬할만한 점은 Open-Sora2.0이 오픈 소스 모델 코드 및 가중치뿐만 아니라 오픈 소스 전체 프로세스 교육 코드도 의심 할 여지없이 전체 오픈 소스 생태계의 개발을 크게 촉진한다는 것입니다. Open-Sora2.0의 학술 논문 인용의 수는 반년 내에 거의 100 개의 인용을 받았으며, 세계에서 가장 영향력있는 오픈 소스 비디오 생성 프로젝트 중 하나가되었습니다.
Open-Sora2.0 팀은 또한 추론 비용을 크게 줄이기 위해 고압 비율 비디오 자동 코더의 적용을 적극적으로 탐색하고 있습니다. 그들은 압축 비율이 높은 비디오 자동 인코더 (4 × 32 × 32)를 훈련시켜 단일 카드로 768px 및 5 초 비디오를 생성하는 추론 시간을 거의 30 분에서 3 분 이내에 10 회 증가했습니다. 이 혁신은 향후 고품질 비디오 컨텐츠를 더 빨리 생성 할 수 있음을 의미합니다.
Luchen Technology에서 출시 한 오픈 소스 비디오 생성 모델 Open-Sora2.0은 저렴한 고성능 및 포괄적 인 오픈 소스 특성으로 비디오 생성 필드에 강력한 "패리티"트렌드를 제공합니다. 그 출현은 최고의 폐쇄 소스 모델로 격차를 좁힐뿐만 아니라 고품질 비디오 생성의 임계 값을 낮추어 더 많은 개발자가 비디오 생성 기술 개발에 참여하고 공동으로 홍보 할 수있게했습니다.
github 오픈 소스 저장소 : https://github.com/hpcaitech/open-sora
기술 보고서 : https://github.com/hpcaitech/open-sora-demo/blob/blob/paper/open_sora_2_tech_report.pdf