Les modèles de génération d'images ont fait des progrès significatifs dans le domaine de l'IA ces dernières années, mais la vitesse à laquelle les images de haute qualité ont été un problème difficile. La dernière technologie de correspondance des moments inductives de Luma AI (IMM) fournit une solution révolutionnaire à ce problème. En optimisant l'efficacité du stade d'inférence, IMM a considérablement amélioré la vitesse de génération d'images, qui peut être appelée «turbocompressée» dans le domaine de l'IA.
À l'heure actuelle, la communauté d'IA fait généralement face au problème du goulot d'étranglement de la pré-formation générative. Bien que la quantité de données continue de croître, l'innovation d'algorithme est relativement à la traîne. LUMA AI a souligné que le cœur du problème n'est pas le manque de données, mais l'échec des algorithmes existants à appuyer pleinement sur le potentiel des données. C'est comme posséder des mines d'or mais uniquement en utilisant des outils originaux pour les extraire, ce qui est inefficace. Pour briser ce "plafond d'algorithme", Luma AI a tourné son attention vers l'expansion de l'informatique en temps d'inférence et la technologie IMM a proposé.
Ce qui est unique à propos de IMM, c'est qu'il repense l'algorithme de pré-formation du point de vue de l'efficacité d'inférence. Le modèle de diffusion traditionnel doit être progressivement ajusté et le processus de génération d'images est comme l'exploration dans un labyrinthe. IMM, en revanche, a introduit le concept de "pas de temps cible", permettant au modèle de "sauter" de manière plus flexible dans le processus d'inférence, réduisant considérablement les étapes requises pour la génération. Cette conception améliore non seulement la vitesse, mais améliore également la capacité expressive de chaque itération.
De plus, IMM adopte également une technologie de divergence moyenne maximale, fournissant une navigation précise pour le processus d'inférence et garantissant que le modèle peut générer efficacement des images de haute qualité. Cette innovation a permis aux IMMS de dépasser les méthodes traditionnelles à la fois en vitesse et en qualité.
Les résultats expérimentaux montrent que IMM a obtenu un score FID de 1,99 avec seulement 30 fois des étapes d'échantillonnage de moins sur l'ensemble de données ImageNet256X256, dépassant le modèle de diffusion et l'appariement du débit. Sur l'ensemble de données CIFAR-10, l'IMM a obtenu un score FID de 1,98 en seulement 2 étapes, fixant le meilleur niveau pour cet ensemble de données. Cette vitesse "Lightning" fait ressortir IMM dans le domaine de la génération d'images.
En plus de l'avantage de vitesse, IMM a également bien performé à la stabilité de l'entraînement. Par rapport aux modèles de cohérence et à d'autres modèles qui nécessitent une conception spéciale d'hyperparamètre, IMM peut être formé de manière stable dans divers hyperparamètres et architectures de modèle, ce qui réduit encore le seuil d'utilisation.
Luma AI souligne que le succès de l'IMM dépend non seulement de l'application de la technologie de correspondance du moment, mais également de son idée de conception qui met d'abord le raisonnement. Cette perspective innovante leur permet de franchir les limites du paradigme pré-formation existant et d'ouvrir de nouvelles directions pour le développement de modèles de base multimodaux. Luma Ai pense que l'imm n'est que le début et déclenchera un potentiel d'intelligence plus créatif à l'avenir.
Référentiel GitHub: https://github.com/lumalabs/imm