최근 Microsoft Research Team은 여러 대학의 연구원들과 협력하여 "Magma"라는 멀티 모달 AI 모델을 시작했습니다. 이 모델의 설계 목표는 이미지, 텍스트 및 비디오와 같은 여러 데이터 유형을 통합하여 디지털 및 물리적 환경에서 복잡한 작업을 수행하는 것입니다. 기술의 빠른 개발로 인해 멀티 모달 AI 에이전트는 로봇 공학, 가상 어시스턴트 및 사용자 인터페이스 자동화에 점점 더 널리 사용되고 있습니다.
이전 AI 시스템은 일반적으로 비전 언어 이해 또는 로봇 작동과 같은 단일 필드에 중점을 두어이 두 기능을 통합 모델로 통합하기가 어렵습니다. 많은 기존 모델이 특정 분야에서 잘 작동하지만 다른 응용 프로그램 시나리오에서는 일반화 기능이 좋지 않습니다. 예를 들어, Pix2Act 및 WebGum 모델은 UI Navigation에서 잘 작동하는 반면 OpenVLA 및 RT-2는 로봇 조작에 더 적합하지만 종종 교육이 필요하며 디지털 환경과 물리적 환경 간의 경계를 넘어서기가 어렵습니다.
"마그마"모델의 출시는 이러한 한계를 극복하기위한 것입니다. AI 에이전트가 다양한 환경에서 원활하게 작동 할 수 있도록 강력한 교육 방법을 도입하여 멀티 모달 이해, 액션 포지셔닝 및 계획 기능을 통합합니다. Magma의 교육 데이터 세트에는 이미지, 비디오 및 로봇 모션 궤적을 포함하는 3,900 만 개의 샘플이 포함되어 있습니다. 또한이 모델은 두 가지 혁신적인 기술인 마크 세트 (SOM)와 트레이스 오브 마크 (TOM)를 채택합니다. 전자는 모델이 UI 환경에서 실행 가능한 시각적 객체를 표시 할 수있게하는 반면, 후자는 시간이 지남에 따라 물체의 움직임을 추적하여 미래의 행동의 계획 기능을 향상시킬 수 있습니다.
"Magma"는 고급 딥 러닝 아키텍처 및 대규모 사전 훈련 기술을 채택하여 여러 분야에서 성능을 최적화합니다. 이 모델은 Conbnext-XXL Visual 백본을 사용하여 이미지 및 비디오를 처리하며 LLAMA-3-8B 언어 모델은 텍스트 입력 처리를 담당합니다. 이 아키텍처를 통해 "Magma"는 비전, 언어 및 행동 실행을 효율적으로 통합 할 수 있습니다. 포괄적 인 교육 후,이 모델은 여러 작업에 대한 훌륭한 결과를 얻었으며 강력한 멀티 모드 이해와 공간 추론 능력을 보여줍니다.
프로젝트 입구 : https://microsoft.github.io/magma/
핵심 사항 :
마그마 모델은 여러 샘플에서 훈련을 받았으며 강력한 멀티 모드 학습 기능을 가지고 있습니다.
이 모델은 기존 AI 모델의 한계를 극복하여 비전, 언어 및 행동을 성공적으로 통합합니다.
Magma는 여러 벤치 마크에서 잘 수행되어 강력한 일반화와 우수한 의사 결정 및 실행 기능을 보여줍니다.