La startup d'intelligence artificielle Luma a récemment publié une technologie de pré-formation d'image open source appelée correspondance de moment inductive (IMM) sur la plate-forme X. Cette technologie a attiré une grande attention dans le domaine de l'IA générative pour son efficacité et sa stabilité, et est considéré comme une percée majeure dans ce domaine.
Selon l'utilisateur de X Linqi_Zhou, IMM est un tout nouveau paradigme qui peut réaliser une formation stable à partir de zéro à travers des modèles uniques et des objectifs uniques. Par rapport aux méthodes traditionnelles, les IMMS fonctionnent mieux dans l'efficacité de l'échantillonnage et la qualité de l'échantillon. Il a mentionné dans le post: "IMM a obtenu 1,99 fid en seulement 8 étapes sur l'ensemble de données ImageNet256 × 256 et 1,98 fid en seulement 2 étapes sur CIFAR-10." Cette réalisation a non seulement actualisé la norme de l'industrie, mais a également démontré l'énorme potentiel de l'IMM dans le domaine de la génération d'images.
Par rapport au modèle de diffusion grand public actuel, IMM a augmenté l'efficacité d'échantillonnage de plus de 10 fois tout en maintenant une qualité d'échantillon plus élevée. X User OP7418 explique en outre les principes techniques de l'IMM: les modèles de diffusion traditionnels sont moins efficaces en raison des limites de l'interpolation linéaire et de la convergence en plusieurs étapes, tandis que IMM améliore considérablement la flexibilité en traitant simultanément le pas de temps actuel et le pas de temps cible pendant le processus d'inférence. Cette conception de «raisonnement d'abord» permet au modèle de générer des images de haute qualité en moins d'étapes, brisant ainsi le goulot d'étranglement algorithmique du modèle de diffusion.
De plus, IMM est également meilleur que les modèles de cohérence en termes de stabilité de la formation. OP7418 souligne que les modèles de cohérence sont sujets à une dynamique instable pendant la formation, tandis que les IMMS présentent une robustesse plus forte et peuvent s'adapter à une variété d'hyperparamètres et d'architectures de modèle. Cette fonctionnalité rend IMM plus fiable dans les applications pratiques.
L'initiative IMM de l'open source de Luma a reçu des éloges de la communauté. X User FinanceYF5 a commenté: "La technologie IMM de Luma Labs a amélioré l'efficacité de la génération d'images de 10 fois par rapport aux méthodes existantes, en percer avec succès le goulot d'étranglement de l'algorithme du modèle de diffusion!" Il a également joint un lien vers l'introduction de la technologie pertinente, qui a déclenché plus de discussions entre les utilisateurs. Le code et les points de contrôle d'IMM ont été publiés via GitHub, et les détails techniques ont également été élaborés dans des articles connexes, reflétant pleinement la détermination de Luma à promouvoir l'ouverture de la recherche sur l'IA.
Les données de performance de l'imm prouve en outre sa position principale. Sur l'ensemble de données ImageNet256 × 256, IMM a dépassé le modèle de diffusion (2.27-FID) et la correspondance du débit (2.15-FID) avec 1,99FID, et l'étape d'échantillonnage a été réduite de 30 fois. Sur l'ensemble de données CIFAR-10, IMM a obtenu 1,98FID en seulement 2 étapes d'échantillonnage, définissant le meilleur enregistrement pour cet ensemble de données. OP7418 a également mentionné que l'IMM avait une excellente évolutivité informatique. Avec l'augmentation de la formation et l'informatique d'inférence, les performances continuent de s'améliorer, jetant les bases d'applications à plus grande échelle à l'avenir.
Il est largement cru dans l'industrie que l'open source d'IMMS peut déclencher un changement de paradigme dans la technologie de génération d'images. Avec ses propriétés efficaces, de haute qualité et stables, IMM convient non seulement à la génération d'images, mais aussi possible pour s'étendre aux champs vidéo et multimodaux. L'équipe de Luma a déclaré que IMM n'est que la première étape vers un modèle de base multimodal, et ils espèrent débloquer des possibilités d'intelligence plus créatives grâce à cette technologie.
Avec la libération de l'IMM, la position de Luma dans la compétition mondiale de l'IA est devenue de plus en plus importante. Les perspectives d'application généralisées de cette technologie et son impact perturbateur sur les modèles existants devraient continuer à déclencher des discussions animées dans les prochains mois.