Kürzlich hat das Microsoft Research Team mit Forschern mehrerer Universitäten zusammengearbeitet, um ein multimodales KI -Modell namens "Magma" zu starten. Das Designziel dieses Modells besteht darin, komplexe Aufgaben in digitalen und physischen Umgebungen durchzuführen, indem mehrere Datentypen wie Bilder, Text und Video integriert werden. Mit der schnellen Entwicklung der Technologie werden multimodale AI -Agenten immer größer in der Automatisierung von Robotik, virtuellen Assistenten und Benutzeroberflächen verwendet.
Frühere KI-Systeme konzentrierten sich normalerweise auf ein einzelnes Feld wie das Verständnis der Visionsprachen oder das Roboterbetrieb, was es schwierig macht, diese beiden Funktionen in ein einheitliches Modell zu integrieren. Obwohl viele vorhandene Modelle in bestimmten Bereichen gut abschneiden, verfügen sie über schlechte Generalisierungsfunktionen in verschiedenen Anwendungsszenarien. Beispielsweise können die PIX2ACT- und Webgum-Modelle in der UI-Navigation gut abschneiden, während OpenVLA und RT-2 besser für die Manipulation von Roboter geeignet sind, aber häufig ein Training separat erfordern und die Grenzen zwischen digitalen und physischen Umgebungen schwierig zu überschreiten.
Der Start des "Magma" -Modells besteht genau darin, diese Einschränkungen zu überwinden. Es integriert multimodale Verständnis-, Aktionspositionierungs- und Planungsfunktionen, indem es eine leistungsstarke Trainingsmethode einführt, mit der AI -Agenten in einer Vielzahl von Umgebungen nahtlos arbeiten können. Magmas Trainingsdatensatz enthält 39 Millionen Muster, die Bilder, Videos und Roboter -Bewegungsbahnen abdecken. Darüber hinaus verwendet das Modell zwei innovative Technologien: Set-of-Mark (SOM) und Trace-of-Mark (TOM). Ersteres ermöglicht es dem Modell, umsetzbare visuelle Objekte in der UI -Umgebung zu markieren, während letztere es ihm ermöglicht, die Bewegung von Objekten im Laufe der Zeit zu verfolgen und so die Planungsfähigkeiten zukünftiger Aktionen zu verbessern.
"Magma" nimmt fortschrittliche Deep-Learning-Architektur und groß angelegte Vorausbildungstechniken an, um die Leistung in mehreren Bereichen zu optimieren. Das Modell verwendet das visuelle Backbone Convnext-XXL, um Bilder und Videos zu verarbeiten, und das LAMA-3-8B-Sprachmodell ist für die Verarbeitung von Texteingaben verantwortlich. Diese Architektur ermöglicht es "Magma", Seh-, Sprach- und Handlungsausführung effizient zu integrieren. Nach einem umfassenden Training hat das Modell bei mehreren Aufgaben hervorragende Ergebnisse erzielt und zeigte ein starkes multimodales Verständnis und räumliche Argumentationsfunktionen.
Projekteingang: https://microsoft.github.io/magma/
Schlüsselpunkte:
Das Magma -Modell wurde in mehreren Proben trainiert und verfügt über starke multimodale Lernfunktionen.
Das Modell integriert erfolgreich Vision, Sprache und Handlung und überwindet die Grenzen bestehender KI -Modelle.
Magma hat in mehreren Benchmarks eine gute Leistung erzielt und zeigte eine starke Verallgemeinerung und hervorragende Entscheidungsfunktionen und Ausführungsfähigkeiten.