Недавно исследовательская команда Microsoft сотрудничала с исследователями из нескольких университетов, чтобы запустить мультимодальную модель искусственного интеллекта под названием «Магма». Целью дизайна этой модели является выполнение сложных задач в цифровых и физических средах путем интеграции нескольких типов данных, таких как изображения, текст и видео. Благодаря быстрому развитию технологий, мультимодальные агенты ИИ становятся все более и более широко используемыми в робототехнике, виртуальных помощниках и автоматизации пользовательского интерфейса.
Предыдущие системы ИИ обычно были сосредоточены на одной области, такой как понимание зрения или роботизированная работа, что затрудняет интеграцию этих двух возможностей в унифицированную модель. Хотя многие существующие модели работают хорошо в определенных областях, они обладают плохими возможностями обобщения в различных сценариях применения. Например, модели Pix2ACT и Webgum хорошо работают в навигации пользовательского интерфейса, в то время как OpenVLA и RT-2 более подходят для роботизированных манипуляций, но они часто требуют тренировки отдельно и их трудно пересечь границы между цифровыми и физическими средами.
Запуск модели «магмы» заключается в том, чтобы точно преодолеть эти ограничения. Он объединяет мультимодальные возможности понимания, позиционирования действий и планирования, внедряя мощный метод обучения, позволяющий агентам ИИ работать без проблем в различных средах. Обучающий набор данных MAGMA содержит 39 миллионов образцов, охватывающих изображения, видео и траектории движения робота. Кроме того, модель принимает две инновационные технологии: набор марки (SOM) и Trace-Of Mark (TOM). Первый позволяет модели отмечать действенные визуальные объекты в среде пользовательского интерфейса, в то время как последняя позволяет ей отслеживать движение объектов с течением времени, тем самым улучшая возможности планирования будущих действий.
«Магма» принимает передовую архитектуру глубокого обучения и крупномасштабные методы предварительного обучения, чтобы оптимизировать его производительность в нескольких областях. Модель использует визуальную основу Convinext-XXL для обработки изображений и видео, а языковая модель Llama-3-8B отвечает за ввод текста. Эта архитектура позволяет «магме» эффективно интегрировать видение, язык и выполнение действий. После всестороннего обучения модель достигла отличных результатов по нескольким задачам, демонстрируя сильное мультимодальное понимание и пространственные мышления.
Вход в проект: https://microsoft.github.io/magma/
Ключевые моменты:
Магма -модель была обучена нескольким образцам и обладает сильными мультимодальными возможностями обучения.
Модель успешно интегрирует видение, язык и действия, преодолевая ограничения существующих моделей искусственного интеллекта.
Магма хорошо выступила в нескольких критериях, демонстрируя сильное обобщение и превосходные возможности принятия решений и исполнения.