Récemment, Microsoft a officiellement ouvert un modèle de base de l'agent AI multimodal appelé "Magma" sur son site officiel. Cette nouvelle intelligence artificielle a la capacité de s'étendre sur les mondes numériques et physiques et peut traiter plusieurs types de données tels que des images, des vidéos, des textes, etc. Par rapport aux assistants d'IA traditionnels, le magma est unique dans sa fonction de prédiction psychologique, lui permettant de comprendre plus précisément les intentions et les comportements futurs des personnages ou des objets dans la vidéo.

Magma a une large gamme de scénarios d'application, et les utilisateurs peuvent utiliser cette IA pour passer automatiquement les commandes et vérifier la météo et d'autres opérations quotidiennes. De plus, il peut contrôler automatiquement les robots physiques et fournir une aide en temps réel aux utilisateurs pendant des activités telles que les échecs. Cette capacité multimodale permet au magma de bien performer dans différents environnements et de pouvoir s'adapter à une variété de tâches complexes.
Selon les rapports officiels, le magma est particulièrement adapté aux assistants ou aux robots alimentés par l'IA, les aidant à mieux comprendre leur environnement et à prendre des mesures correspondantes. Par exemple, il peut guider les robots domestiques pour apprendre à organiser des éléments que vous n'avez jamais vus auparavant, ou aider les assistants virtuels à générer des guides étape par étape pour les utilisateurs. Cette caractéristique améliore considérablement la capacité d'apprentissage et la praticité du robot.
Le modèle Magma est l'une des séries VLA (Visual Language Action). En apprenant des quantités massives de données visuelles et linguistiques publiques, il peut intégrer le langage, l'espace et l'intelligence temporelle, répondant ainsi efficacement aux tâches et aux défis complexes de la vie réelle. Avec le développement de la technologie de l'intelligence artificielle, le lancement de Magma marque un autre grand pas en avant pour les assistants intelligents et la robotique.
Lien du projet: https://microsoft.github.io/magma/
Points clés:
Capacité intermodale: le magma peut traiter une variété de types de données tels que les images, les vidéos et le texte, améliorant les fonctions de l'assistant intelligent.
Application intelligente: les utilisateurs peuvent passer automatiquement les commandes, vérifier la météo et contrôler les robots physiques via le magma.
Adaptabilité d'apprentissage: Magma aide les robots à apprendre de nouvelles tâches et génère des guides opérationnels pour les assistants virtuels, améliorant son utilité.