Благодаря быстрому развитию видеотехнологий, генерируемых искусственным интеллектом, их точность достигла точки, когда уже трудно отличить подлинность от подделки. Чтобы решить эту проблему, исследователи из Колумбийского университета разработали новый инструмент под названием DIVID для обнаружения видео, созданных искусственным интеллектом. DIVID — это расширение инструмента Raidar, который ранее использовался для обнаружения текста, сгенерированного искусственным интеллектом. Он эффективно идентифицирует видео, созданные с помощью диффузионных моделей, таких как Sora и Runway от OpenAI, путем анализа характеристик самого видео, а не полагаясь на внутреннюю работу. механизм модели ИИ Gen-2 и Pika et al. Этот результат исследования имеет большое значение для борьбы с дипфейковыми видеороликами и обеспечения информационной безопасности сети.
Видео, созданные ИИ, становятся все более реалистичными, из-за чего людям (и существующим системам обнаружения) становится сложнее отличать настоящие видео от поддельных. Чтобы решить эту проблему, исследователи из Инженерной школы Колумбийского университета под руководством профессора информатики Цзюньфэн Яна разработали новый инструмент под названием DIVID для обнаружения видео, созданных искусственным интеллектом, что расшифровывается как VIdeo Detector, созданный DIffusion. DIVID — это расширение Raidar, которое команда выпустила ранее в этом году. Оно обнаруживает текст, сгенерированный искусственным интеллектом, путем анализа самого текста без доступа к внутренней работе большой языковой модели.

DIVID совершенствует более ранние методы обнаружения сгенерированных видео, эффективно идентифицируя видео, созданные более старыми моделями искусственного интеллекта, такими как генеративно-состязательные сети (GAN). GAN — это система искусственного интеллекта с двумя нейронными сетями: одна используется для создания поддельных данных, а другая — для оценки и различения реальных и поддельных данных. Благодаря постоянной обратной связи обе сети постоянно совершенствуются, в результате чего создаются очень реалистичные синтетические видеоролики. Современные инструменты обнаружения искусственного интеллекта ищут контрольные признаки, такие как необычное расположение пикселей, неестественные движения или несоответствия между кадрами, которые обычно не проявляются в реальном видео.

Новое поколение генеративных видеоинструментов искусственного интеллекта, таких как Sora от OpenAI, Runway Gen-2 и Pika, использует модели диффузии для создания видео. Диффузионное моделирование — это технология искусственного интеллекта, которая создает изображения и видео путем постепенного преобразования случайного шума в четкие, реалистичные изображения. Для видео он оптимизирует каждый кадр индивидуально, обеспечивая при этом плавные переходы, что приводит к высококачественным и реалистичным результатам. Разработка этого все более сложного видео, генерируемого искусственным интеллектом, представляет собой серьезную проблему для определения его подлинности.
Команда Бернадетт Янг использовала технику под названием DIRE (Ошибка реконструкции DIffusion) для обнаружения изображений, генерируемых диффузией. DIRE — это метод, который измеряет разницу между входным изображением и соответствующим выходным изображением, восстановленным с помощью предварительно обученной диффузионной модели.
Цзюньфэн Ян, содиректор Лаборатории программных систем, изучает способы обнаружения текста и видео, генерируемых искусственным интеллектом. С выпуском Raidar в начале этого года Цзюньфэн Ян и его коллеги реализовали метод обнаружения текста, сгенерированного ИИ, путем анализа самого текста без доступа к внутренней работе больших языковых моделей, таких какchatGPT-4, Gemini или Llama. Raidar использует языковую модель для переформулирования или изменения данного текста, а затем измеряет количество изменений, которые система вносит в данный текст. Большое количество правок означает, что текст, вероятно, был написан человеком, а небольшое количество правок означает, что текст, вероятно, был сгенерирован машиной.
«Эвристика Райдара — что другой ИИ обычно воспринимает результаты другого ИИ как высококачественные, поэтому он вносит меньше изменений — является очень мощным пониманием, не ограничивающимся только текстом», — сказал Цзюньфэн Ян. Он сказал: «Учитывая, что ИИ генерирует. видео становятся все более реалистичными, мы хотели использовать идеи Райдара для создания инструмента, который сможет точно обнаруживать видео, созданные искусственным интеллектом».
Исследователи разработали DIVID, используя ту же концепцию. Этот новый генеративный метод обнаружения видео может идентифицировать видео, созданные диффузионными моделями. Исследовательская статья была опубликована на конференции по компьютерному зрению и распознаванию образов (CVPR) в Сиэтле 18 июня 2024 года, одновременно с ней были выпущены открытый исходный код и набор данных.
Адрес статьи: https://arxiv.org/abs/2406.09601.
Основные моменты:
- В ответ на все более реалистичные видео, созданные искусственным интеллектом, исследователи из инженерной школы Колумбийского университета разработали новый инструмент DIVID, который может обнаруживать видео, созданные искусственным интеллектом, с точностью 93,7%.
- DIVID — это улучшение по сравнению с предыдущими методами обнаружения видео нового поколения, сгенерированных искусственным интеллектом, которое может идентифицировать видео, созданные с помощью модели диффузии, которая постепенно преобразует случайный шум в высококачественные реалистичные видеоизображения.
- Исследователи распространяют информацию о тексте, сгенерированном ИИ Raidar, на видео, используя языковые модели для переформулирования или изменения текста или видео, а затем измеряют количество изменений, которые система вносит в текст или видео, чтобы определить его подлинность.
Короче говоря, появление DIVID предоставляет новое оружие для борьбы с ложной информацией в видеороликах, созданных искусственным интеллектом. Выпуск его открытого исходного кода и наборов данных также будет способствовать будущим исследованиям и разработкам в этой области и будет способствовать созданию более безопасной и надежной системы. сетевое окружение.