Recentemente, a HPC-AI Tech anunciou o lançamento do Open-SORA 2.0, um sistema de IA de vídeo inovador que pode atingir a qualidade do grau comercial em apenas um décimo do custo de treinamento típico. Esse progresso marca uma possível mudança de paradigma no campo IA de vídeo com uso intensivo de recursos, comparável aos ganhos de eficiência vistos nos modelos de idiomas.
Embora sistemas de geração de vídeo de alta qualidade existentes, como o filme Gen e o Step-Video-T2V, possam exigir milhões de dólares em treinamento, os gastos com treinamento de SABE2.0 são de apenas US $ 200.000. Apesar da redução substancial de custos, os testes mostraram que sua qualidade de saída é comparável aos sistemas comerciais estabelecidos, como a pista Gen-3alpha e HunyuanVideo. O sistema usa 224 NVIDIA H200GPUS para treinamento.
Dica: "Duas mulheres sentam-se no sofá bege, o quarto é quente e confortável, com paredes de tijolos ao fundo. Eles conversam alegremente, sorriem e criam copos para celebrar o vinho tinto no tiro íntimo no meio da cena". | Vídeo: HPC-AI Tech
O Open-SORA2.0 alcança sua eficiência por meio de um novo processo de treinamento em três estágios, começando com vídeo de baixa resolução e gradualmente refina para resoluções mais altas. Modelos de imagem pré-treinados integrados, como o Flux, otimizam ainda mais a utilização de recursos. Em sua essência, está o vídeo de vídeo DC-AE, que fornece excelentes taxas de compressão em comparação aos métodos tradicionais. Essa inovação se traduz em uma notável velocidade de treinamento 5.2x mais rápida e mais de tenx mais rápida velocidade de geração de vídeo. Enquanto taxas de compressão mais altas levam a uma ligeira redução nos detalhes da saída, ela acelera bastante o processo de criação de vídeo.
Dica: "Um tomate navega por uma fatia de alface, na cachoeira de molho de pasto, surf exagerado e efeitos de ondas suaves destacam a diversão da animação 3D". | Vídeo: HPC-AI Tech
Esse sistema de código aberto pode gerar vídeos a partir de descrições de texto e imagens únicas e permite que os usuários controlem a intensidade do movimento nos clipes gerados através da função de pontuação de movimento. Exemplos fornecidos pela HPC-AI Tech, uma variedade de cenários, incluindo diálogo realista e animações extravagantes.
No entanto, atualmente, o Open-Sora 2.0 possui limitações na resolução (768x768 pixels) e duração máxima de vídeo (5 segundos ou 128 quadros), que é inferior às capacidades dos principais modelos como o SORA do OpenAI. No entanto, seu desempenho em áreas -chave, como qualidade visual, precisão de dicas e processamento de movimento, está se aproximando dos padrões comerciais. Vale a pena notar que a pontuação do VBEnch do SORA2.0 agora está agora apenas 0,69% atrás do SORA do Openai, uma melhoria significativa em relação aos 4,52% da versão anterior.
Dica: "Um monte de cogumelos antropomórficos realizam uma festa de discoteca em uma floresta mágica escura, acompanhada por luzes de neon piscando e passos de dança exagerados, suas texturas suaves e superfícies reflexivas enfatizam a aparência engraçada em 3D". | Vídeo: HPC-AI Tech
A estratégia econômica do SORA2.0 ecoa o "momento profundo dos pontos profundos" no modelo de idioma, quando os métodos de treinamento aprimorados permitiram que os sistemas de código aberto atingissem o desempenho do grau comercial a um custo muito menor que os sistemas comerciais. Esse desenvolvimento pode pressionar os preços no campo da IA em vídeo, que atualmente é cobrado por segundos devido à alta demanda de computação.

Comparação de custos de treinamento: a SARA2.0 aberta custa cerca de US $ 200.000, enquanto o filme Gen custa US $ 2,5 milhões e o vide-video-T2V custa US $ 1 milhão. | Foto: HPC-AI Tech
Apesar desse progresso, a lacuna de desempenho entre o vídeo aberto e a IA comercial ainda é maior que a dos modelos de idiomas, destacando os desafios técnicos em andamento no campo. O Open-SORA2.0 agora está disponível como um projeto de código aberto no GitHub.