Sitio web oficial www.binance.com/zh-cn :ingrese el sitio web oficial ☜☜
Aplicación: ☞☞Official App Download☜☜
Recientemente, HPC-AI Tech anunció el lanzamiento de Open-Sora 2.0, un sistema de IA de video innovador que puede lograr una calidad de grado comercial en solo una décima parte del costo de capacitación típico. Este progreso marca un posible cambio de paradigma en el campo de IA de video intensivo de recursos, comparable a las ganancias de eficiencia vistas en los modelos de idiomas.
Si bien los sistemas de generación de videos de alta calidad existentes como el Gen de películas y el Video-T2V Step-T2V pueden requerir millones de dólares en capacitación, el gasto de entrenamiento de Sora2.0 abiertos es de solo $ 200,000. A pesar de la reducción sustancial de costos, las pruebas han demostrado que su calidad de salida es comparable a los sistemas comerciales establecidos como Runway Gen-3Alpha y Hunyuanvideo. El sistema utiliza 224 NVIDIA H200GPUS para capacitación.
Consejo: "Dos mujeres se sientan en el sofá beige, la habitación es cálida y cómoda, con paredes de ladrillo en el fondo. Hablan felizmente, sonríen y recaudan anteojos para celebrar el vino tinto en el íntimo disparo de la escena". | Video: HPC-AI Tech
Open-Sora2.0 logra su eficiencia a través de un nuevo proceso de entrenamiento de tres etapas, comenzando con video de baja resolución y se refina gradualmente a resoluciones más altas. Los modelos de imagen pre-entrenados integrados, como el flujo, optimizan aún más la utilización de recursos. En su núcleo está el video AutoCoder DC-AA, que proporciona excelentes tasas de compresión en comparación con los métodos tradicionales. Esta innovación se traduce en una notable velocidad de entrenamiento de 5.2x y una velocidad de generación de videos más rápida de TenX. Si bien las tasas de compresión más altas conducen a una ligera reducción en los detalles de la salida, acelera enormemente el proceso de creación de video.
Consejo: "Un tomate surfea una rebanada de lechuga, por la cascada de salsa de pasto, surf exagerado y efectos de ondas suaves resaltan la diversión de la animación 3D". | Video: HPC-AI Tech
Este sistema de código abierto puede generar videos a partir de descripciones de texto e imágenes individuales, y permite a los usuarios controlar la intensidad del movimiento en los clips generados a través de la función de puntuación de movimiento. Ejemplos proporcionados por HPC-AI Tech muestran una variedad de escenarios, incluidos el diálogo realista y las animaciones caprichosas.
Sin embargo, la Sora 2.0 abierta actualmente tiene limitaciones en la resolución (768x768 píxeles) y la duración máxima del video (5 segundos o 128 cuadros), que es inferior a las capacidades de modelos principales como Sora de Openi. Sin embargo, su rendimiento en áreas clave como la calidad visual, la precisión de las señales y el procesamiento de movimiento se acercan a los estándares comerciales. Vale la pena señalar que la puntuación VBench de Sora2.0 abierta ahora está solo un 0,69% detrás de Sora de Openai, una mejora significativa del 4.52% de la versión anterior.
Consejo: "Un montón de hongos antropomórficos celebran una fiesta de discoteca en un bosque mágico oscuro, acompañado de luces de neón intermitentes y pasos de baile exagerados, sus texturas suaves y superficies reflectantes enfatizan la divertida apariencia 3D". | Video: HPC-AI Tech
La estrategia rentable de abre-sora2.0 hace eco del "momento profundo" en el modelo de idioma, cuando los métodos de entrenamiento mejorados permitieron sistemas de código abierto para lograr un rendimiento de grado comercial a un costo mucho más bajo que los sistemas comerciales. Este desarrollo podría ejercer una presión a la baja sobre los precios en el campo AI de video, que actualmente se cobra por segundos debido a la alta demanda informática.

Comparación de costos de capacitación: Abierto-Sora2.0 cuesta alrededor de $ 200,000, mientras que la generación de películas cuesta $ 2.5 millones, y el video-video-T2V cuesta $ 1 millón. | Foto: HPC-AI Tech
A pesar de este progreso, la brecha de rendimiento entre el código abierto y la IA de video comercial es aún mayor que la de los modelos de idiomas, destacando los desafíos técnicos en curso en el campo. Open-Sora2.0 ahora está disponible como un proyecto de código abierto en GitHub.