En el campo de la generación de videos, Operai Sora ha sido considerado como un punto de referencia de la industria por sus altos costos de capacitación y su excelente rendimiento. Sin embargo, Luchen Technology anunció recientemente el código abierto de su modelo de generación de video Open-Sora2.0, que sin duda causó una gran sensación en la industria. Open-Sora2.0 se convirtió rápidamente en el nuevo foco de la tecnología de generación de videos con su costo de capacitación y rendimiento extremadamente bajo cerca de los principales modelos.
El costo de capacitación de Open-Sora2.0 es de solo US $ 200,000, que es equivalente a la inversión de 224 GPU, pero ha capacitado con éxito un modelo de generación de videos de nivel comercial con 11 mil millones de parámetros. Este logro no solo demuestra los avances tecnológicos de Luchen Technology, sino que también aporta nuevas posibilidades al campo de la generación de videos.

Aunque el sora22.0 abierto cuesta mucho más bajo que Operai Sora, su rendimiento no es menor que eso. Open-Sora2.0 ha tenido un desempeño de manera impresionante en las revisiones autorizadas de VBench y las pruebas de preferencia de usuario, e incluso puede competir con modelos de código cerrado que cuestan millones de dólares para entrenar en múltiples métricas clave. Especialmente en la evaluación de Vbench, la brecha de rendimiento entre el sora22.0 y abiertos y OpenAi Sora se ha reducido significativamente del 4.52% anterior a solo 0.69%, casi alcanzando un rendimiento integral.
Lo que es aún más emocionante es que los puntajes de Sora2.0 abiertos incluso superan el Hunyuanvideo de Tencent en Vbench, lo que demuestra su fuerte fortaleza en la tecnología de generación de videos. Este logro no solo prueba las ventajas tecnológicas de abre-sora2.0, sino que también establece un nuevo punto de referencia para la tecnología de generación de videos de código abierto.
En la revisión de preferencias del usuario, Open-Sora2.0 tiene al menos dos indicadores que superan el modelo SOTA de código abierto Hunyuanvideo y el modelo de negocio Runway Gen-3Alpha en las tres dimensiones clave del rendimiento visual, la consistencia del texto y el rendimiento de la acción. Este logro consolida aún más la posición principal de Sora2.0 en el campo de generación de videos.

La razón por la cual Open-Sora2.0 puede lograr un rendimiento tan alto a un costo tan bajo se debe a una serie de innovaciones tecnológicas y estrategias de optimización. En primer lugar, Open-Sora2.0 continúa la idea de diseño de abre-sora1.2, adopta el marco de entrenamiento de coincidencia de autoencoder y flujo 3D, e introduce un mecanismo de atención total en 3D para mejorar aún más la calidad de la generación de videos.
Para seguir la optimización de costos finales, abierto-Sora2.0 comienza desde múltiples aspectos: la detección de datos estricto garantiza la entrada de datos de capacitación de alta calidad, se da prioridad a la capacitación de baja resolución para aprender eficientemente información de movimiento, se da prioridad a la capacitación de tareas de video gráficos para acelerar la convergencia de modelos y la adopción de la adopción de los recursos de los recursos de los recursos de la combinación paralela, combinando los recursos de la colossalai y el sistema, el sistema de medición, la combinación de los recursos.
Se estima que el costo de una sola capacitación de más de 10b modelos de video de código abierto en el mercado a menudo es de millones de dólares, mientras que el sora22.0 abierto reduce este costo en 5-10 veces. Este avance no solo reduce el umbral para la generación de videos de alta calidad, sino que también brinda a más desarrolladores la oportunidad de participar en la investigación y el desarrollo de la tecnología de generación de videos.
Lo que es aún más encomiable es que el código de modelo y los pesos de modelos de código abierto no solo, sino también de código abierto, que sin duda promoverá en gran medida el desarrollo de todo el ecosistema de código abierto. El número de citas en papel académico de abiertamente-sora2.0 ha recibido casi 100 citas dentro de medio año, clasificando primero en la clasificación de influencia de código abierto global, convirtiéndose en uno de los proyectos de generación de videos de código abierto más influyentes del mundo.
El equipo abierto de Sora2.0 también está explorando activamente la aplicación de Autoencoder de videos de videos de alta compresión para reducir significativamente los costos de inferencia. Entrenaron un autoencoder de video con alta relación de compresión (4 × 32 × 32) para acortar el tiempo de inferencia de generar videos de 768 px y 5 segundos en una sola tarjeta de casi 30 minutos a 3 minutos, y la velocidad ha aumentado en 10 veces. Esta innovación significa que podemos generar contenido de video de alta calidad más rápido en el futuro.
El modelo de generación de videos de código abierto abre-sora2.0 lanzado por Luchen Technology, con sus características de bajo costo, de alto rendimiento y de código abierto integrales, sin duda trae una fuerte tendencia de "paridad" al campo de generación de videos. Su emergencia no solo redujo la brecha con los principales modelos de código cerrado, sino que también redujo el umbral para la generación de videos de alta calidad, lo que permite a más desarrolladores participar y promover conjuntamente el desarrollo de la tecnología de generación de videos.
Repositorio de código abierto de GitHub: https://github.com/hpcaitech/open-sora
Informe técnico: https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf