Recentemente, a equipe de pesquisa da Microsoft cooperou com pesquisadores de várias universidades para lançar um modelo de IA multimodal chamado "Magma". O objetivo de design deste modelo é executar tarefas complexas em ambientes digitais e físicos, integrando vários tipos de dados, como imagens, texto e vídeo. Com o rápido desenvolvimento da tecnologia, os agentes multimodais de IA estão se tornando cada vez mais utilizados em robótica, assistentes virtuais e automação de interface do usuário.
Os sistemas de IA anteriores geralmente se concentravam em um único campo, como entendimento da linguagem da visão ou operação robótica, dificultando a integração desses dois recursos em um modelo unificado. Embora muitos modelos existentes tenham um bom desempenho em campos específicos, eles têm poucas capacidades de generalização em diferentes cenários de aplicação. Por exemplo, os modelos PIX2ACT e WebGum têm um bom desempenho na navegação na interface do usuário, enquanto o OpenVLA e o RT-2 são mais adequados para a manipulação robótica, mas geralmente exigem treinamento separadamente e são difíceis de cruzar os limites entre ambientes digitais e físicos.
O lançamento do modelo "magma" é precisamente superar essas limitações. Ele integra recursos multimodais de entendimento, posicionamento de ação e planejamento, introduzindo um poderoso método de treinamento para permitir que os agentes de IA operem perfeitamente em uma variedade de ambientes. O conjunto de dados de treinamento da Magma contém 39 milhões de amostras que cobrem imagens, vídeos e trajetórias de movimento de robôs. Além disso, o modelo adota duas tecnologias inovadoras: Conjunto de marcas (SOM) e Trace of Mark (TOM). O primeiro permite que o modelo marque objetos visuais acionáveis no ambiente da interface do usuário, enquanto o último permite rastrear o movimento de objetos ao longo do tempo, melhorando assim os recursos de planejamento de ações futuras.
"Magma" adota arquitetura avançada de aprendizado profundo e técnicas de pré-treinamento em larga escala para otimizar seu desempenho em vários campos. O modelo usa o backbone visual convnoxt-xxl para processar imagens e vídeos, e o modelo de idioma llama-3-8b é responsável pelo processamento de entrada de texto. Essa arquitetura permite que o "magma" integre eficientemente a execução de visão, linguagem e ação. Após o treinamento abrangente, o modelo alcançou excelentes resultados em várias tarefas, mostrando fortes recursos multimodais e recursos de raciocínio espacial.
Entrada do projeto: https://microsoft.github.io/magma/
Pontos -chave:
O modelo de magma foi treinado em várias amostras e possui fortes recursos de aprendizado multimodal.
O modelo integra com sucesso visão, linguagem e ação, superando as limitações dos modelos de IA existentes.
O Magma teve um bom desempenho em vários benchmarks, mostrando forte generalização e excelentes recursos de tomada de decisão e execução.