A Apple e o Instituto Federal Suíço de Tecnologia (EPFL) lançaram em conjunto um modelo de visão multimodal de código aberto chamado 4M-21. Com sua excelente versatilidade e flexibilidade, o modelo 4M-21 se tornou uma nova estrela no campo do aprendizado multimodal. Embora sua escala de parâmetros seja de apenas 3 bilhões, muito menor que alguns modelos grandes, ela pode mostrar excelência em dezenas de tarefas como classificação de imagem, detecção de objetos, segmentação semântica, segmentação de instância, estimativa de profundidade, estimativa normal da superfície, etc. desempenho.
A inovação central do modelo 4M-21 está em sua tecnologia de conversão de "tokens discretos". Essa tecnologia pode converter uniformemente dados de diferentes modos, como imagens, mapas de recursos neurais, vetores, dados estruturados e texto, em sequências de tokens que são compreensíveis pelo modelo. Essa transformação não apenas simplifica o processo de treinamento do modelo, mas também fornece uma base sólida para a fusão e processamento de dados multimodais. Através dessa tecnologia, o 4M-21 pode processar com eficiência vários tipos de dados, demonstrando recursos poderosos no aprendizado multimodal.

Durante o processo de treinamento, o 4M-21 adotou um método de modelagem de máscara. Este método força o modelo a aprender a estrutura estatística e a relação potencial dos dados de entrada, ocluindo peças aleatórias dos tokens na sequência de entrada e prevendo as partes ocluídas com base nos tokens restantes. A modelagem de máscara não apenas melhora a capacidade de generalização do modelo, mas também melhora significativamente sua precisão na tarefa de geração. A aplicação deste método permite que o 4M-21 capture a semelhança da informação e a interação entre diferentes modos no aprendizado multimodal.
Os pesquisadores realizaram avaliações extensas de 4M-21, cobrindo várias tarefas, como classificação de imagem, detecção de objetos, segmentação semântica, segmentação de instância, estimativa de profundidade, estimativa normal da superfície e estimativa de pose humana em 3D. Os resultados da avaliação mostram que o 4M-21 executa nessas tarefas comparáveis aos modelos atuais de ponta e até supera as tecnologias existentes em algumas tarefas. Isso demonstra totalmente os recursos excelentes do 4M-21 no processamento multimodal.
Pontos -chave:
- Apple e o Federal Institute of Technology de Lausanne, Suíça, abrem em conjunto o modelo 4M-21, que se tornou uma conquista importante no campo da aprendizagem multimodal, com sua ampla versatilidade e flexibilidade.
- 4M-21 pode ter um bom desempenho em dezenas de tarefas como classificação de imagens, detecção de objetos, segmentação semântica, segmentação de instância, estimativa de profundidade, estimativa normal da superfície etc.
- A tecnologia principal do 4M-21 é a conversão de "tokens discretos", que pode transformar dados de várias modalidades em uma sequência de tokens que é tokens compreensíveis.