LVBench, тестовый проект по распознаванию длинного видео, запущенный совместно Zhipu, Университетом Цинхуа и Пекинским университетом, направлен на решение проблем, с которыми сталкиваются существующие мультимодальные модели большого языка при обработке длинных видео. Проект предоставляет несколько часов данных контроля качества, охватывающих различные типы видеоконтента, таких как сериалы, спортивные трансляции и видео наблюдения, и содержит 6 основных категорий и 21 подкатегорию. Данные аннотированы с высоким качеством, а для фильтрации используется LLM. сложные задачи, охватывающие различные задачи, такие как обобщение видео, обнаружение событий, распознавание символов и понимание сцены. Запуск LVBench будет способствовать прорывам и инновациям в технологии распознавания длинных видео, обеспечивая надежную поддержку таких приложений, как воплощенное интеллектуальное принятие решений, подробные обзоры фильмов и телепередач, а также профессиональные спортивные комментарии.

Этот проект содержит несколько часов данных контроля качества в 6 основных категориях и 21 подкатегории, охватывающих различные типы видеоконтента, такие как сериалы, спортивные трансляции и ежедневные записи камер наблюдения из общедоступных источников. Все данные снабжены высококачественными аннотациями, а LLM используется для фильтрации сложных проблем. Сообщается, что набор данных LVBench охватывает множество задач, таких как обобщение видео, обнаружение событий, распознавание символов и понимание сцены.

Запуск теста LVBench не только направлен на проверку логических и операционных возможностей модели в сценариях длинных видео, но также способствует прорывам и инновациям в смежных технологиях для достижения воплощенного интеллектуального принятия решений, углубленных обзоров фильмов и телепередач, а также профессионального спорта. комментарии в области длинных видеороликов должны придать новый импульс.
Многие исследовательские учреждения начали работать над набором данных LVBench, постепенно расширяя границы искусственного интеллекта в понимании долгосрочных информационных потоков путем создания больших моделей для длинных видеозадач и внедряя новые идеи в постоянное исследование понимания видео, мультимодальных обучение и другие сферы жизнедеятельности.
github: https://github.com/THUDM/LVBench
Проект: https://lvbench.github.io
Статья: https://arxiv.org/abs/2406.08035.
Запуск проекта LVBench знаменует собой новый этап в развитии технологии распознавания длинных видео. Богатые наборы данных и сложные задачи, которые он предоставляет, привлекут к участию больше исследователей, ускорят прогресс искусственного интеллекта в области понимания длинных видео. принести пользу будущим приложениям. Больше возможностей. С нетерпением ждем новых результатов исследований на основе LVBench в будущем.