최근 Microsoft는 공식 웹 사이트에서 "Magma"라는 멀티 모달 AI 에이전트 기본 모델을 공식적으로 열었습니다. 이 새로운 인공 지능은 디지털 세계 및 물리적 세계에 걸쳐있을 수 있으며 이미지, 비디오, 텍스트 등과 같은 여러 데이터 유형을 동시에 처리 할 수 있습니다. 전통적인 AI 조수와 비교할 때 마그마는 심리적 예측 기능에서 독특하므로 비디오에서 캐릭터 나 대상의 의도와 미래 행동을보다 정확하게 이해할 수 있습니다.

Magma에는 광범위한 응용 프로그램 시나리오가 있으며 사용자는이 AI를 사용하여 주문을 자동으로 배치하고 날씨 및 기타 일일 작업을 확인할 수 있습니다. 또한 체스와 같은 활동 중에 물리적 로봇을 자동으로 제어하고 사용자에게 실시간 도움을 제공 할 수 있습니다. 이 멀티 모드 기능을 통해 마그마는 다양한 환경에서 잘 수행하고 다양한 복잡한 작업에 적응할 수 있습니다.
공식 보고서에 따르면, Magma는 AI 구동 조수 나 로봇에 특히 적합하여 주변 환경을 더 잘 이해하고 해당 조치를 취할 수 있도록 도와줍니다. 예를 들어, 홈 로봇을 안내하여 이전에 본 적이없는 항목을 구성하는 방법을 배우거나 가상 어시스턴트가 사용자를위한 단계별 가이드를 생성하도록 도울 수 있습니다. 이 기능은 로봇의 학습 능력과 실용성을 크게 향상시킵니다.
마그마 모델은 VLA (Visual Language Action) 시리즈 중 하나입니다. 대량의 공개 시각 및 언어 데이터를 배우면 언어, 공간 및 시간 지능을 통합하여 실제의 복잡한 작업과 도전에 효과적으로 대응할 수 있습니다. 인공 지능 기술의 발전으로 마그마의 출시는 스마트 어시스턴트와 로봇 공학을위한 또 다른 큰 발전을 보여줍니다.
프로젝트 링크 : https://microsoft.github.io/magma/
핵심 사항 :
교차 모달 기능 : Magma는 이미지, 비디오 및 텍스트와 같은 다양한 데이터 유형을 처리하여 스마트 어시스턴트의 기능을 향상시킬 수 있습니다.
지능형 응용 프로그램 : 사용자는 순서를 자동으로 배치하고 날씨를 확인하며 MAGMA를 통해 물리적 로봇을 제어 할 수 있습니다.
학습 적응성 : Magma는 로봇이 새로운 작업을 배우고 가상 어시스턴트를위한 운영 안내서를 생성하여 유용성을 향상시키는 데 도움이됩니다.