Recientemente, el Equipo de Investigación de Microsoft cooperó con investigadores de múltiples universidades para lanzar un modelo de IA multimodal llamado "Magma". El objetivo de diseño de este modelo es realizar tareas complejas en entornos digitales y físicos integrando múltiples tipos de datos como imágenes, texto y video. Con el rápido desarrollo de la tecnología, los agentes de IA multimodales se están volviendo cada vez más ampliamente utilizados en robótica, asistentes virtuales y automatización de la interfaz de usuario.
Los sistemas de IA anteriores generalmente se centran en un solo campo, como la comprensión del idioma de la visión o la operación robótica, lo que dificulta la integración de estas dos capacidades en un modelo unificado. Aunque muchos modelos existentes funcionan bien en campos específicos, tienen malas capacidades de generalización en diferentes escenarios de aplicación. Por ejemplo, los modelos PIX2ACT y WebGum funcionan bien en la navegación de UI, mientras que OpenVLA y RT-2 son más adecuados para la manipulación robótica, pero a menudo requieren entrenamiento por separado y son difíciles de cruzar los límites entre los entornos digitales y físicos.
El lanzamiento del modelo "Magma" es precisamente para superar estas limitaciones. Integra la comprensión multimodal, el posicionamiento de la acción y las capacidades de planificación al introducir un poderoso método de capacitación para permitir a los agentes de IA operar sin problemas en una variedad de entornos. El conjunto de datos de entrenamiento de Magma contiene 39 millones de muestras que cubren imágenes, videos y trayectorias de movimiento de robots. Además, el modelo adopta dos tecnologías innovadoras: conjunto de marcas (SOM) y traza de marca (TOM). El primero permite que el modelo marque los objetos visuales procesables en el entorno de la interfaz de usuario, mientras que el segundo le permite rastrear el movimiento de los objetos con el tiempo, mejorando así las capacidades de planificación de acciones futuras.
"Magma" adopta la arquitectura avanzada de aprendizaje profundo y las técnicas de pretruación a gran escala para optimizar su rendimiento en múltiples campos. El modelo utiliza la columna vertebral visual ConvNext-XXL para procesar imágenes y videos, y el modelo de lenguaje LLAMA-3-8B es responsable de procesar la entrada de texto. Esta arquitectura permite que "magma" integre eficientemente la visión, el lenguaje y la ejecución de la acción. Después de una capacitación integral, el modelo ha logrado excelentes resultados en múltiples tareas, mostrando una fuerte comprensión multimodal y capacidades de razonamiento espacial.
Portal del proyecto: https://microsoft.github.io/magma/
Puntos clave:
El modelo de magma ha sido entrenado en múltiples muestras y tiene fuertes capacidades de aprendizaje multimodal.
El modelo integra con éxito la visión, el lenguaje y la acción, superando las limitaciones de los modelos de IA existentes.
Magma se ha desempeñado bien en varios puntos de referencia, mostrando una fuerte generalización y excelentes capacidades de toma de decisiones y ejecución.