Университет Цинхуа и Пекинский университет совместно выпустили тест на понимание длинных видео: LVBench

Автор：Eve Cole Время обновления：2025-02-23 06:25:02

LVBench, тестовый проект по распознаванию длинного видео, запущенный совместно Zhipu, Университетом Цинхуа и Пекинским университетом, направлен на решение проблем, с которыми сталкиваются существующие мультимодальные модели большого языка при обработке длинных видео. Проект предоставляет несколько часов данных контроля качества, охватывающих различные типы видеоконтента, таких как сериалы, спортивные трансляции и видео наблюдения, и содержит 6 основных категорий и 21 подкатегорию. Данные аннотированы с высоким качеством, а для фильтрации используется LLM. сложные задачи, охватывающие различные задачи, такие как обобщение видео, обнаружение событий, распознавание символов и понимание сцены. Запуск LVBench будет способствовать прорывам и инновациям в технологии распознавания длинных видео, обеспечивая надежную поддержку таких приложений, как воплощенное интеллектуальное принятие решений, подробные обзоры фильмов и телепередач, а также профессиональные спортивные комментарии.

QQ截图20240617145826.png

Этот проект содержит несколько часов данных контроля качества в 6 основных категориях и 21 подкатегории, охватывающих различные типы видеоконтента, такие как сериалы, спортивные трансляции и ежедневные записи камер наблюдения из общедоступных источников. Все данные снабжены высококачественными аннотациями, а LLM используется для фильтрации сложных проблем. Сообщается, что набор данных LVBench охватывает множество задач, таких как обобщение видео, обнаружение событий, распознавание символов и понимание сцены.

QQ截图20240617145801.png

Запуск теста LVBench не только направлен на проверку логических и операционных возможностей модели в сценариях длинных видео, но также способствует прорывам и инновациям в смежных технологиях для достижения воплощенного интеллектуального принятия решений, углубленных обзоров фильмов и телепередач, а также профессионального спорта. комментарии в области длинных видеороликов должны придать новый импульс.

Многие исследовательские учреждения начали работать над набором данных LVBench, постепенно расширяя границы искусственного интеллекта в понимании долгосрочных информационных потоков путем создания больших моделей для длинных видеозадач и внедряя новые идеи в постоянное исследование понимания видео, мультимодальных обучение и другие сферы жизнедеятельности.

github: https://github.com/THUDM/LVBench

Проект: https://lvbench.github.io

Статья: https://arxiv.org/abs/2406.08035.

Запуск проекта LVBench знаменует собой новый этап в развитии технологии распознавания длинных видео. Богатые наборы данных и сложные задачи, которые он предоставляет, привлекут к участию больше исследователей, ускорят прогресс искусственного интеллекта в области понимания длинных видео. принести пользу будущим приложениям. Больше возможностей. С нетерпением ждем новых результатов исследований на основе LVBench в будущем.