La startup de inteligencia artificial Luma lanzó recientemente una tecnología de pre-entrenamiento modelo de imagen de código abierto llamada Inductive Moment Matching (IMM) en la plataforma X. Esta tecnología ha atraído una atención generalizada en el campo de la IA generativa para su eficiencia y estabilidad, y se considera un gran avance en este campo.
Según el usuario de X Linqi_zhou, IMM es un paradigma de generación nueva que puede lograr un entrenamiento estable desde cero a través de modelos individuales y objetivos individuales. En comparación con los métodos tradicionales, los IMM funcionan mejor en la eficiencia de muestreo y la calidad de la muestra. Mencionó en la publicación: "Imm logró 1.99FID en solo 8 pasos en el conjunto de datos ImageNet256 × 256 y 1.98FID en solo 2 pasos en CIFAR-10". Este logro no solo refrescó el estándar de la industria, sino que también demostró el enorme potencial de IMM en el campo de la generación de imágenes.
En comparación con el modelo de difusión corriente actual, IMM ha aumentado la eficiencia de muestreo en más de 10 veces al tiempo que mantiene una mayor calidad de muestra. X usuario OP7418 explica además los principios técnicos de IMM: los modelos de difusión tradicionales son menos eficientes debido a las limitaciones de la interpolación lineal y la convergencia de múltiples pasos, mientras que IMM mejora significativamente la flexibilidad al procesar simultáneamente el paso de tiempo actual y el paso del tiempo objetivo durante el proceso de inferencia. Este diseño de "razonamiento primero" permite que el modelo genere imágenes de alta calidad en menos pasos, rompiendo así el cuello de botella algorítmico del modelo de difusión.
Además, IMM también es mejor que los modelos de consistencia en términos de estabilidad de entrenamiento. OP7418 señala que los modelos de consistencia son propensos a una dinámica inestable durante el entrenamiento, mientras que los IMM muestran una robustez más fuerte y pueden adaptarse a una variedad de hiperparámetros y arquitecturas de modelos. Esta característica hace que IMM sea más confiable en aplicaciones prácticas.
La iniciativa IMM de código abierto de Luma ha recibido grandes elogios de la comunidad. X User FinanceYF5 comentó: "La tecnología IMM de Luma Labs ha mejorado la eficiencia de la generación de imágenes en 10 veces en comparación con los métodos existentes, rompiendo con éxito el cuello de botella del algoritmo del modelo de difusión!" También adjuntó un enlace a la introducción de tecnología relevante, que desencadenó más discusiones entre los usuarios. El código y los puntos de control de IMM se han publicado a través de GitHub, y los detalles técnicos también se han elaborado en documentos relacionados, lo que refleja completamente la determinación de Luma para promover la apertura de la investigación de IA.
Los datos de rendimiento de IMM demuestran aún más su posición de liderazgo. En el conjunto de datos ImageNet256 × 256, IMM superó el modelo de difusión (2.27FID) y la coincidencia de flujo (2.15FID) con 1.99FID, y el paso de muestreo se redujo en 30 veces. En el conjunto de datos CIFAR-10, IMM logró 1.98FID en solo 2 pasos de muestreo, estableciendo el mejor registro para este conjunto de datos. OP7418 también mencionó que IMM tiene una excelente escalabilidad informática. Con el aumento de la capacitación y la informática de inferencia, el rendimiento continúa mejorando, estableciendo las bases para aplicaciones a mayor escala en el futuro.
Se cree ampliamente en la industria que el código abierto de IMM puede desencadenar un cambio de paradigma en la tecnología de generación de imágenes. Con sus propiedades eficientes, de alta calidad y estables, IMM no solo es adecuado para la generación de imágenes, sino que también es posible extenderse a los campos de video y multimodales. El equipo de Luma dijo que IMM es solo el primer paso hacia un modelo básico multimodal, y esperan desbloquear posibilidades de inteligencia más creativas a través de esta tecnología.
Con el lanzamiento de IMM, la posición de Luma en la competencia global de IA se ha vuelto cada vez más prominente. Se espera que las perspectivas de aplicación generalizadas de esta tecnología y su impacto disruptivo en los modelos existentes continúen provocando discusiones acaloradas en los próximos meses.