Los modelos de generación de imágenes han hecho un progreso significativo en el campo de la IA en los últimos años, pero la velocidad a la que las imágenes de alta calidad han sido un problema. La última tecnología de coincidencia inductiva (IMM) de Luma AI proporciona una solución innovadora a este problema. Al optimizar la eficiencia de la etapa de inferencia, IMM ha mejorado en gran medida la velocidad de generación de imágenes, que puede llamarse "turboalimentado" en el campo de la IA.
En la actualidad, la comunidad de IA generalmente enfrenta el problema del cuello de botella de pre-entrenamiento generativo. Aunque la cantidad de datos continúa creciendo, la innovación del algoritmo está relativamente rezagada. Luma AI señaló que el núcleo del problema no es datos insuficientes, sino la falla de los algoritmos existentes para tocar completamente el potencial de los datos. Es como poseer minas de oro, pero solo usar herramientas originales para extraerlas, lo cual es ineficiente. Para romper este "techo de algoritmo", Luma Ai dirigió su atención a la expansión informática de tiempo de inferencia y la tecnología IMM propuesta.
Lo único de IMM es que rediseña el algoritmo de pre-entrenamiento desde la perspectiva de la eficiencia de inferencia. El modelo de difusión tradicional debe ajustarse gradualmente, y el proceso de generación de imágenes es como explorar en un laberinto. Imm, por otro lado, introdujo el concepto de "paso de tiempo objetivo", permitiendo que el modelo "salte" de manera más flexible en el proceso de inferencia, reduciendo en gran medida los pasos requeridos para la generación. Este diseño no solo mejora la velocidad, sino que también mejora la capacidad expresiva de cada iteración.
Además, IMM también adopta la tecnología de discrepancia media máxima, proporcionando una navegación precisa para el proceso de inferencia y asegurando que el modelo pueda generar eficientemente imágenes de alta calidad. Esta innovación ha permitido a IMMS superar los métodos tradicionales tanto en velocidad como en calidad.
Los resultados experimentales muestran que IMM logró una puntuación FID de 1.99 con solo 30 veces menos pasos de muestreo en el conjunto de datos ImageNet256x256, superando el modelo de difusión y la coincidencia de flujo. En el conjunto de datos CIFAR-10, el IMM obtuvo una puntuación FID de 1.98 en solo 2 pasos, estableciendo el mejor nivel para este conjunto de datos. Esta velocidad de "rayo" hace que IMM se destaque en el campo de la generación de imágenes.
Además de la ventaja de velocidad, IMM también funcionó bien en la estabilidad del entrenamiento. En comparación con los modelos de consistencia y otros modelos que requieren un diseño especial de hiperparameter, IMM puede estar de forma estable bajo varios hiperparámetros y arquitecturas de modelos, lo que reduce aún más el umbral para su uso.
Luma AI enfatiza que el éxito de IMM no solo depende de la aplicación de la tecnología de coincidencia de momentos, sino también de su idea de diseño que pone primero el razonamiento. Esta perspectiva innovadora les permite romper las limitaciones del paradigma de pre-entrenamiento existente y abrir nuevas direcciones para el desarrollo de modelos básicos multimodales. Luma AI cree que IMM es solo el comienzo y desatará un potencial de inteligencia más creativo en el futuro.
Repositorio de Github: https://github.com/lumalabs/imm