Apple и Швейцарский федеральный институт технологии (EPFL) совместно запустили модель мультимодального зрения с открытым исходным кодом под названием 4M-21. Благодаря отличной универсальности и гибкости модель 4M-21 стала новой звездой в области мультимодального обучения. Хотя его шкала параметров составляет всего 3 миллиарда, гораздо меньше, чем некоторые основные крупные модели, он может показать превосходство в десятках таких задач, как классификация изображений, обнаружение объекта, семантическая сегментация, сегментация экземпляра, оценка глубины, нормальная оценка поверхности и т. Д.
Основное инновация модели 4M-21 заключается в технологии преобразования «дискретных токенов». Эта технология может равномерно преобразовать данные из разных режимов, таких как изображения, карты функций нейронной сети, векторы, структурированные данные и текст, в последовательности токенов, которые понятны моделью. Это преобразование не только упрощает учебный процесс модели, но также обеспечивает прочную основу для слияния и обработки мультимодальных данных. Благодаря этой технологии 4M-21 может эффективно обрабатывать несколько типов данных, демонстрируя тем самым мощные возможности в мультимодальном обучении.

Во время учебного процесса 4M-21 принял метод моделирования маски. Этот метод заставляет модель изучать статистическую структуру и потенциальную связь входных данных путем случайного окклюзирования частей токенов в входной последовательности и прогнозируя окклюзированные части на основе оставшихся токенов. Моделирование маски не только улучшает способность обобщения модели, но и значительно повышает ее точность в задаче генерации. Применение этого метода позволяет 4M-21 захватить информацию об общности и взаимодействия между различными режимами в мультимодальном обучении.
Исследователи провели обширные оценки 4M-21, охватывая несколько задач, таких как классификация изображений, обнаружение объекта, семантическая сегментация, сегментация экземпляра, оценка глубины, нормальная оценка поверхности и оценка трехмерной позы человека. Результаты оценки показывают, что 4M-21 выполняет в этих задачах, сравнимых с текущими современными моделями, и даже превосходит существующие технологии в некоторых задачах. Это полностью демонстрирует выдающиеся возможности 4M-21 в мультимодальной обработке.
Ключевые моменты:
- Apple и Федеральный технологический институт Лозанны, Швейцария, совместно открыли модель 4M-21, которая стала важным достижением в области мультимодального обучения с его широкой универсальностью и гибкостью.
- 4M-21 может хорошо работать в десятках задач, таких как классификация изображений, обнаружение объекта, семантическая сегментация, сегментация экземпляра, оценка глубины, нормальная оценка поверхности и т. Д.
- Основная технология 4M-21- это преобразование «дискретных токенов», которая может преобразовать данные из нескольких модальностей в последовательность токенов, которая является понятным токеном.