Microsoft a récemment publié officiellement le modèle de base de l'agent AI multimodal "Magma" sur son site officiel et a annoncé qu'il l'ouvrira. Le lancement de cette technologie marque une percée majeure dans le domaine de l'intelligence artificielle, en particulier en termes de capacités multimodales, où le magma a montré un potentiel sans précédent. Par rapport aux assistants intelligents traditionnels, le magma peut traiter divers formulaires de données tels que des images, des vidéos, des textes, etc., briser les frontières entre le monde numérique et le monde physique, et offrir aux utilisateurs une expérience de service plus intelligente.
Magma propose un large éventail d'applications, couvrant plusieurs champs de la vie quotidienne aux opérations complexes. Par exemple, sur les plates-formes de commerce électronique, le magma peut aider les utilisateurs à passer automatiquement les commandes, à vérifier la météo et d'autres affaires quotidiennes. Dans des scénarios plus complexes, le magma peut collaborer avec des robots physiques pour effectuer des tâches telles que les échecs. Dans Real Chess Game, Magma peut fournir aux utilisateurs des conseils stratégiques en temps réel, améliorant considérablement l'interactif et le plaisir du jeu. De plus, le magma a également des fonctions de prédiction psychologique, qui peuvent déduire le comportement futur des caractères ou des objets dans la vidéo, permettant aux assistants virtuels ou aux robots de mieux comprendre l'environnement environnant et de réagir en conséquence.

Selon l'introduction officielle de Microsoft, les scénarios d'application de Magma ne se limitent pas à la vie familiale, mais peuvent également être étendus dans d'autres domaines. Par exemple, il peut aider les robots domestiques à apprendre à organiser des éléments que vous n'avez jamais vus auparavant, ou à générer des instructions de navigation interface utilisateur étape par étape pour les tâches inconnues pour les assistants virtuels. Cette fonction permet aux utilisateurs d'obtenir une aide et des conseils plus précis lorsqu'ils sont confrontés à de nouveaux environnements ou à de nouvelles tâches, améliorant considérablement l'expérience utilisateur.

Le magma fait partie du modèle de base de l'action du langage visuel (VLA) et peut être appris à travers des données visuelles et de langue publiques massives. Cette capacité permet au magma d'intégrer efficacement le langage, l'intelligence spatiale et temporelle pour fournir des solutions aux tâches complexes des utilisateurs dans les mondes numériques et physiques. Qu'il s'agisse de gérer les transactions quotidiennes ou d'effectuer des opérations complexes, le magma est compétent et démontre ses puissantes capacités multimodales.
L'open source de Magma offre aux développeurs et aux chercheurs un outil puissant qui stimule le développement dans les domaines des assistants intelligents et des robots domestiques. À l'avenir, avec l'amélioration continue de cette technologie, nous pourrons peut-être voir des applications plus innovantes basées sur le magma dans notre vie quotidienne. Qu'il s'agisse de la vie de famille, de scénarios commerciaux ou de domaines industriels, le magma devrait devenir une force importante dans la promotion du processus intelligent.
Adresse du projet: https://microsoft.github.io/magma/