Недавнее исследование, проведенное Янном Лекуном, главным ученом Meta's AI, показало, как искусственный интеллект развивает базовое понимание физики, просмотрев видео. Исследование, проведенное учеными из Meta Fair, Парижского университета и EHESS, показывает, что системы ИИ могут получить интуитивные физические знания благодаря самоподрызенному обучению без предустановленных правил.

Исследовательская группа приняла новый подход под названием «Архитектура встроенной прогнозирования» (V-JEPA), который более тесно связан с методом обработки информации человеческого мозга, чем генеративные модели ИИ, такие как SORA Openai. V-JEPA не преследует генерацию идеальных предсказаний пикселей, но фокусируется на том, чтобы делать прогнозы в абстрактном пространстве представления. Таким образом, системы ИИ могут изучать основные физические концепции.
В исследовании команда позаимствовала метод оценки «нарушения ожиданий» из психологии развития, который первоначально использовался для проверки способностей физического понимания младенцев. Исследователи показывают, что AI два аналогичных сценария - один физически возможный, а другой физически невозможно (например, мяч проходит через стену), а физическая способность ИИ в области физического понимания может быть оценена путем измерения его реакции на эти физические нарушения.
V-JEPA был протестирован на трех наборах данных: Intphys (основные физические концепции), Grapp (сложные взаимодействия) и Inflevel (реалистичная среда). Результаты показывают, что V-JEPA особенно хорошо работает в постоянстве объектов, непрерывности и консистенции формы, в то время как крупные мультимодальные языковые модели, такие как Gemini1.5Pro и QWEN2-VL-72B, работают почти сопоставимы со случайными предположениями.
Эффективность обучения V-JEPA также привлекает внимание. Система может освоить основные концепции физики, просто просмотрев 128 часов видео. Более того, даже небольшая модель с 115 миллионами параметров показала сильные результаты. Исследования показывают, что V-JEPA способен эффективно идентифицировать модели движения и идентифицировать физически необоснованные события с высокой точностью, закладывая основу для ИИ, чтобы по-настоящему понять будущее мира.
Это исследование бросает вызов фундаментальному предположению во многих исследованиях ИИ о том, что системы требуют заданных «основных знаний» для понимания законов физики. Выводы V-JEPA показывают, что обсервационное обучение может помочь ИИ получить знания в этой области, аналогично процессу, с помощью которого младенцы, приматы и даже молодые птицы понимают физику. Исследование соответствует долгосрочному исследованию Meta Architecture Jepa, направленной на создание всеобъемлющей мировой модели, которая позволяет автономным системам ИИ иметь более глубокое понимание своей среды.
Исследования показывают, что ИИ изучает физические знания через видео без предустановленных правил. V-JEPA превосходит большие языковые модели в понимании физики и демонстрирует более сильные способности к обучению. Мета управляет новыми направлениями разработки ИИ, стремясь создать более полную модель экологического понимания.