Недавно команда Meta AI запустила инновационную модель под названием «Архитектура встроенной видеоизоляции» (V-JEPA), прорывную технологию, предназначенную для дальнейшей разработки машинного интеллекта. Люди рождаются со способностью обрабатывать визуальные сигналы и могут легко идентифицировать окружающие объекты и паттерны движения. Важной целью машинного обучения является выявление основных принципов неконтролируемого обучения у людей. С этой целью исследователи предложили ключевую гипотезу - принцип прогнозных признаков, который утверждает, что представления непрерывных сенсорных входов должны быть в состоянии предсказать друг друга.
Ранние методы исследования в основном используют медленный анализ функций и спектральные методы для поддержания согласованности времени, что предотвращает обрушение представления. Тем не менее, современные технологии сочетают в себе контрастное обучение и маскирование моделирования, чтобы гарантировать, что представления могут развиваться с течением времени. Эти методы не только фокусируются на временной инвариантности, но и на карту взаимосвязи функций на разных временных шагах путем обучения сети прогнозирования, тем самым значительно повышая производительность. Особенно в видеоданах применение космического времени маскировки еще больше улучшает качество обучения.
Исследовательская группа Meta разработала модель V-JEPA в сотрудничестве с несколькими известными учреждениями. Эта модель фокусируется на прогнозировании функций и фокусируется на неконтролируемом видео -обучении. В отличие от традиционных методов, V-JEPA не полагается на предварительно обученные кодеры, отрицательные образцы, реконструкции или контроль текста. Во время тренировочного процесса V-JEPA использовал два миллиона публичных видео и достиг значительных результатов по спортивным и внешним задачам без точной настройки.
Метод обучения V-JEPA заключается в создании объектно-ориентированной модели обучения с помощью видеодантеров. Во -первых, нейронная сеть извлекает представление объектного центра из видео кадры, захватывая функции движения и внешнего вида. Эти представления дополнительно улучшаются за счет сравнительного обучения для улучшения разделяемости объектов. Затем архитектура на основе трансформаторов обрабатывает эти представления для моделирования временных взаимодействий между объектами. Вся структура обучена крупномасштабным наборам данных для оптимизации точности реконструкции и согласованности перекрестной рамы.
V-JEPA работает особенно превосходно по сравнению с методами прогнозирования пикселей, особенно при оценке замораживания. Несмотря на то, что V-JEPA немного недостаточно развита в задачах классификации ImageNet, V-JEPA превосходит другие методы на основе моделей Vit-L/16 с меньшим количеством тренировочных образцов. V-JEPA превосходно выполняет понимание движения и видео задачи, более эффективен в обучении и до сих пор способен поддерживать точность при низких настройках образцов.
Это исследование демонстрирует эффективность прогнозирования признаков как независимой цели неконтролируемого видео обучения. V-JEPA хорошо работает в различных задачах изображения и видео и превосходит предыдущие методы представления видео без адаптации параметров. V-JEPA имеет значительные преимущества в захвате тонких деталей движения, демонстрируя его огромный потенциал в понимании видео.
Бумага: https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-reresentations-from-video/
Блог: https://ai.meta.com/blog/v-jepa-yann-leecun-ai-model-vide-joint-embedding-predictive-architecture/
Ключевые моменты:
Модель V-JEPA-это новая модель видео обучения, запущенная Meta AI, которая сосредоточена на неконтролируемом прогнозировании функций.
Модель не полагается на традиционные предварительные энкодеры и контроль текста, чтобы учиться непосредственно из видеоданных.
V-JEPA хорошо показал видео-задачи и низкое обучение, демонстрируя его эффективную способность обучения и сильную способность представления.