Недавно исследование, совместно проведенное исследовательским институтом Bytedance и Университетом Цинхуа, подняло вопросы о способности физического понимания современных моделей генерации видео с искусственным интеллектом. Благодаря тщательно разработанным экспериментам, исследовательская группа обнаружила, что эти модели, такие как Sora Openai, хотя и визуально впечатляющие, не совсем понимали основные физические законы, но вместо этого полагались на цвет, размер и обучение и определение приоритетов поверхностных функций, таких как скорость и скорость и скорость и скорость форма. Это исследование вызвало глубокое размышление людей о реальности моделирования ИИ, а также бросает вызов моделям ИИ, которые хвастаются их физическим пониманием возможностей.
Недавно исследователи из научно -исследовательского института Bytedance и Университета Цинхуа совместно выпустили новое исследование, указывающее, что текущая модель генерации видео, такая как Sora Openai, может создать удивительные визуальные эффекты, но понимает основные физики. Полем Это исследование вызвало широкое обсуждение способности ИИ имитировать реальность.
Исследовательская группа проверила модель генерации видео ИИ и создала три различных сценария, а именно прогноз в известном режиме, прогнозирование в неизвестном режиме и новые комбинации знакомых элементов. Их цель состоит в том, чтобы увидеть, действительно ли эти модели изучают законы физики, или они полагаются исключительно на поверхностные особенности при обучении.
Благодаря тестированию исследователи обнаружили, что эти модели ИИ не изучают повсеместно применимых правил. Вместо этого они полагаются в первую очередь на такие функции поверхности, как цвет, размер, скорость и форма при генерации видео, и следуют строгому порядку приоритета: предпочтительнее цвет, за которым следует размер, скорость и форма.
В знакомых сценариях эти модели работают почти идеально, но как только они сталкиваются с неизвестными ситуациями, они кажутся бессильными. Тест в исследовании демонстрирует ограничения моделей ИИ при работе с движениями объектов. Например, когда модель тренируется, используя быстрые движущиеся сферы для перемещения взад -вперед, предоставляя им медленные сферы во время тестирования, модель фактически показывает, что сфера внезапно меняет направление после нескольких кадров. Это явление также четко отражено в связанных видео.
Исследователи указывают на то, что простое расширение размера модели или увеличение учебных данных не решает проблему. Хотя более крупные модели работают лучше под знакомыми моделями и комбинациями, они все еще не понимают основных физических законов или обрабатывают сценарии, выходящие за рамки обучения. Исследовательский соавтор Кан Бингии упомянул: «Если охват данных достаточно хорош в определенном сценарии, может быть возможно сформировать переполненную мировую модель». Мировая модель должна быть в состоянии продвигать за пределами учебных данных.
Соавтор Бинги Канг продемонстрировал это ограничение на x, объяснив, что, когда они обучали модель быстро движущимся мяч Кадры, направление внезапно изменилось (вы можете увидеть его за 1 минуту и 55 -секундное видео).
Результаты этого исследования задают программу Openai's Sora. Openai заявил, что Sora будет развиваться в истинную мировую модель посредством постоянного расширения и даже утверждает, что у нее есть базовое понимание физического взаимодействия и трехмерной геометрии. Но исследователи указывают на то, что только простого расширения масштаба недостаточно, чтобы позволить моделям генерации видео обнаружить основные физические законы.
Янн Лекун, глава ИИ в Meta, также выразил сомнения в этом, полагая, что практика прогнозирования мира путем генерации пикселей является «пустой тратой времени и обречена на потерю». Несмотря на это, многие люди по-прежнему с нетерпением ждут выхода Sora Openai, как и запланировано в середине 2024 года, демонстрируя потенциал генерации видео.
Ключевые моменты:
Исследование показало, что модель генерации видео ИИ имеет серьезные недостатки в понимании физических законов и опирается на характеристики поверхности учебных данных.
Масштабирование размера модели не решает проблему, которая не работает хорошо в неизвестных сценариях.
Программа Openai's Sora сталкивается с проблемами, и только масштаб не может достичь истинной мировой модели.
Короче говоря, это исследование указывало на направление для разработки технологии генерации видео, то есть простого расширения масштаба не может решить фундаментальную проблему понимания ИИ физических законов. В будущем модели ИИ должны более глубоко изучать и понимать физические принципы, чтобы по -настоящему достичь точного моделирования и прогнозирования реального мира, а не просто оставаться на стадии имитации поверхностных особенностей.