O MMF é uma estrutura modular para pesquisa multimodal de visão e idioma da pesquisa da IA do Facebook. O MMF contém implementações de referência dos modelos de visão e linguagem de ponta e alimentou vários projetos de pesquisa na pesquisa da IA do Facebook. Veja a lista completa do projeto dentro ou construído no MMF aqui.
O MMF é alimentado por Pytorch, permite treinamento distribuído e não é opinado, escalável e rápido. Use o MMF para Bootstrap para o seu próximo projeto de pesquisa multimodal de visão e idioma seguindo as instruções de instalação. Dê uma olhada na lista de recursos do MMF aqui.
O MMF também atua como base de código inicial para desafios em torno de conjuntos de dados de visão e idioma (os memes odiosos, textVQA, textcaps e desafios VQA). O MMF era anteriormente conhecido como Pythia. O próximo vídeo mostra uma visão geral de como conjuntos de dados e modelos funcionam dentro do MMF. Visão geral do vídeo do checkout MMF.
Siga as instruções de instalação na documentação.
Saiba mais sobre o MMF aqui.
Se você usar o MMF em seu trabalho ou usar qualquer modelo publicado no MMF, cite:
@misc { singh2020mmf ,
author = { Singh, Amanpreet and Goswami, Vedanuj and Natarajan, Vivek and Jiang, Yu and Chen, Xinlei and Shah, Meet and
Rohrbach, Marcus and Batra, Dhruv and Parikh, Devi } ,
title = { MMF: A multimodal framework for vision and language research } ,
howpublished = { url{https://github.com/facebookresearch/mmf} } ,
year = { 2020 }
}O MMF é licenciado sob licença BSD disponível no arquivo de licença