Kürzlich hat Microsoft auf seiner offiziellen Website offiziell ein multimodales AI -Agent -Basismodell namens "Magma" eröffnet. Diese neue künstliche Intelligenz kann die digitalen und physischen Welten umfassen und mehrere Datentypen wie Bilder, Videos, Texte usw. gleichzeitig verarbeiten. Im Vergleich zu traditionellen AI -Assistenten ist Magma in seiner psychologischen Vorhersagefunktion einzigartig und ermöglicht es, die Absichten und zukünftigen Verhaltensweisen von Charakteren oder Objekten im Video genauer zu verstehen.

Magma verfügt über eine breite Palette von Anwendungsszenarien, und Benutzer können mit dieser KI automatisch Bestellungen aufgeben und das Wetter und andere tägliche Vorgänge überprüfen. Darüber hinaus kann es automatisch physische Roboter steuern und Benutzern bei Aktivitäten wie Schach in Echtzeit helfen. Diese multimodale Fähigkeit ermöglicht es Magma, in verschiedenen Umgebungen eine gute Leistung zu erzielen und sich an eine Vielzahl komplexer Aufgaben anzupassen.
Laut offiziellen Berichten eignet sich Magma besonders für Assistenten oder Roboter mit KI-angetriebener Assistenten oder hilft ihnen, ihre Umgebung besser zu verstehen und entsprechende Maßnahmen zu ergreifen. Zum Beispiel können Home-Roboter dazu führen, zu erfahren, wie Sie Gegenstände organisieren, die Sie noch nie gesehen haben, oder virtuelle Assistenten dabei helfen, Schritt-für-Schritt-Anleitungen für Benutzer zu generieren. Diese Funktion verbessert die Lernfähigkeit und Praktikabilität des Roboters erheblich.
Das Magma -Modell ist eine der VLA -Serien (Visual Language Action). Durch das Erlernen von massiven Mengen an öffentlichen visuellen und sprachlichen Daten kann sie Sprache, Raum- und Zeitinformation integrieren und so effektiv auf komplexe Aufgaben und Herausforderungen im wirklichen Leben reagieren. Mit der Entwicklung der Technologie für künstliche Intelligenz markiert der Start von Magma einen weiteren großen Schritt nach vorne für intelligente Assistenten und Robotik.
Projektlink: https://microsoft.github.io/magma/
Schlüsselpunkte:
Cross-Modal-Fähigkeit: Magma kann eine Vielzahl von Datentypen wie Bilder, Videos und Text verarbeiten und die Funktionen des Smart Assistant verbessern.
Intelligente Anwendung: Benutzer können automatisch Bestellungen abgeben, das Wetter überprüfen und physische Roboter über Magma steuern.
Lernanpassungsfähigkeit: Magma hilft Robotern, neue Aufgaben zu lernen und operative Leitfäden für virtuelle Assistenten zu generieren, wodurch deren Nützlichkeit verbessert wird.