Récemment, l'équipe de recherche de Microsoft a coopéré avec des chercheurs de plusieurs universités pour lancer un modèle d'IA multimodal appelé "Magma". L'objectif de conception de ce modèle est d'effectuer des tâches complexes dans des environnements numériques et physiques en intégrant plusieurs types de données tels que les images, le texte et la vidéo. Avec le développement rapide de la technologie, les agents d'IA multimodaux deviennent de plus en plus largement utilisés dans la robotique, les assistants virtuels et l'automatisation de l'interface utilisateur.
Les systèmes d'IA antérieurs se concentraient généralement sur un seul champ, tel que la compréhension de la vision ou le fonctionnement robotique, ce qui rend difficile l'intégration de ces deux capacités dans un modèle unifié. Bien que de nombreux modèles existants fonctionnent bien dans des domaines spécifiques, ils ont de mauvaises capacités de généralisation dans différents scénarios d'application. Par exemple, les modèles PIX2ACT et Webgum fonctionnent bien dans la navigation d'interface utilisateur, tandis que OpenVLA et RT-2 conviennent plus à la manipulation robotique, mais ils nécessitent souvent une formation séparément et sont difficiles pour franchir les limites entre les environnements numériques et physiques.
Le lancement du modèle "Magma" est précisément pour surmonter ces limites. Il intègre les capacités de compréhension multimodale, de positionnement d'action et de planification en introduisant une méthode de formation puissante pour permettre aux agents d'IA de fonctionner de manière transparente dans une variété d'environnements. L'ensemble de données de formation de Magma contient 39 millions d'échantillons couvrant des images, des vidéos et des trajectoires de mouvement des robots. De plus, le modèle adopte deux technologies innovantes: le jeu de marques (SOM) et la trace de marque (Tom). Le premier permet au modèle de marquer des objets visuels exploitables dans l'environnement de l'interface utilisateur, tandis que le second lui permet de suivre le mouvement des objets au fil du temps, améliorant ainsi les capacités de planification des actions futures.
"Magma" adopte l'architecture avancée d'apprentissage en profondeur et les techniques de pré-formation à grande échelle pour optimiser ses performances dans plusieurs domaines. Le modèle utilise le squelette visuel Convnext-XXL pour traiter les images et les vidéos, et le modèle de langue LLAMA-3-8B est responsable du traitement de l'entrée de texte. Cette architecture permet à "Magma" d'intégrer efficacement la vision, la langue et l'exécution d'action. Après une formation complète, le modèle a obtenu d'excellents résultats sur plusieurs tâches, montrant une forte compréhension multimodale et des capacités de raisonnement spatial.
Portail de projet: https://microsoft.github.io/magma/
Points clés:
Le modèle magma a été formé à plusieurs échantillons et possède de fortes capacités d'apprentissage multimodales.
Le modèle intègre avec succès la vision, la langue et l'action, surmontant les limites des modèles d'IA existants.
Magma a bien performé dans plusieurs repères, montrant une forte généralisation et une excellente prise de décision et des capacités d'exécution.