MMF es un marco modular para la investigación multimodal de la visión y el lenguaje de Facebook AI Research. MMF contiene implementaciones de referencia de modelos de visión e idiomas de última generación y ha impulsado múltiples proyectos de investigación en Facebook AI Research. Vea la lista completa del proyecto en el interior o se construyó en MMF aquí.
MMF funciona con Pytorch, permite el entrenamiento distribuido y no es opinional, escalable y rápido. Use MMF para arranque para su próximo proyecto de investigación multimodal de visión e lenguaje siguiendo las instrucciones de instalación. Eche un vistazo a la lista de funciones de MMF aquí.
MMF también actúa como base de código de inicio para los desafíos en torno a los conjuntos de datos de visión y lenguaje (los memes odiosos, TextVQA, TextCaps y VQA desafíos). MMF fue conocido anteriormente como Pythia. El siguiente video muestra una descripción general de cómo funcionan los conjuntos de datos y los modelos dentro de MMF. Visite la descripción general del video de MMF.
Siga las instrucciones de instalación en la documentación.
Obtenga más información sobre MMF aquí.
Si usa MMF en su trabajo o usa cualquier modelo publicado en MMF, cite:
@misc { singh2020mmf ,
author = { Singh, Amanpreet and Goswami, Vedanuj and Natarajan, Vivek and Jiang, Yu and Chen, Xinlei and Shah, Meet and
Rohrbach, Marcus and Batra, Dhruv and Parikh, Devi } ,
title = { MMF: A multimodal framework for vision and language research } ,
howpublished = { url{https://github.com/facebookresearch/mmf} } ,
year = { 2020 }
}MMF tiene licencia bajo la licencia BSD disponible en el archivo de licencia