近日,微軟研究團隊與多所高校的研究人員合作,推出了一款名為“Magma”的多模態AI模型。這款模型的設計目標是通過整合圖像、文本和視頻等多種數據類型,在數字和物理環境中執行複雜的任務。隨著科技的飛速發展,多模態AI代理在機器人技術、虛擬助手和用戶界面自動化等領域的應用越來越廣泛。
以往的AI系統通常專注於單一領域,如視覺-語言理解或機器人操作,難以將這兩種能力整合到一個統一的模型中。儘管許多現有模型在特定領域內表現出色,但在不同應用場景中的泛化能力較差。例如,Pix2Act和WebGUM模型在UI導航方面表現優異,而OpenVLA和RT-2則更適合機器人操控,但它們往往需要分別進行訓練,難以跨越數字和物理環境的界限。
“Magma”模型的推出,正是為了克服這些局限性。它通過引入一套強大的訓練方法,整合了多模態理解、動作定位和規劃能力,旨在讓AI代理在各種環境中無縫運行。 Magma的訓練數據集包含了3900萬樣本,涵蓋圖像、視頻和機器人動作軌跡。此外,該模型還採用了兩項創新技術:“可標記集”(Set-of-Mark,SoM)和“軌跡標記”(Trace-of-Mark,ToM)。前者使模型能夠標記UI環境中的可操作視覺對象,後者則使其能夠追踪物體隨時間的移動,從而提升未來行動的規劃能力。
“Magma”採用了先進的深度學習架構和大規模的預訓練技術,以優化其在多個領域的表現。模型使用ConvNeXt-XXL視覺主幹處理圖像和視頻,LLaMA-3-8B語言模型負責處理文本輸入。這種架構使“Magma”能夠高效整合視覺、語言與動作執行。經過全面的訓練,模型在多個任務上都取得了優異的成績,顯示出強大的多模態理解和空間推理能力。
項目入口:https://microsoft.github.io/Magma/
劃重點:
Magma模型經過3900萬多樣本訓練,具備強大的多模態學習能力。
該模型成功整合視覺、語言和行動,克服了現有AI模型的局限性。
Magma在多項基準測試中表現出色,顯示出較強的泛化能力和優異的決策執行能力。