Universidade de Tsinghua e Universidade de Pequim colaboram para lançar benchmark de compreensão de vídeos longos: LVBench

Autor：Eve Cole Data da Última Atualização：2025-02-23 06:25:02

LVBench, um projeto de benchmark de compreensão de vídeos longos lançado conjuntamente pela Zhipu, pela Universidade de Tsinghua e pela Universidade de Pequim, visa resolver os desafios enfrentados pelos modelos multimodais existentes de grandes linguagens no processamento de vídeos longos. O projeto fornece várias horas de dados de controle de qualidade cobrindo diferentes tipos de conteúdo de vídeo, como séries de TV, transmissões esportivas e vídeos de vigilância, e contém 6 categorias principais e 21 subcategorias. Os dados são anotados com alta qualidade e o LLM é usado para filtrar. problemas desafiadores, cobrindo uma variedade de tarefas, como resumo de vídeo, detecção de eventos, reconhecimento de caracteres e compreensão de cena. O lançamento do LVBench promoverá avanços e inovações na tecnologia de compreensão de vídeos longos, fornecendo forte suporte para aplicações como tomada de decisão inteligente incorporada, análises aprofundadas de filmes e televisão e comentários esportivos profissionais.

QQ截图20240617145826.png

Este projeto contém várias horas de dados de controle de qualidade em 6 categorias principais e 21 subcategorias, abrangendo diferentes tipos de conteúdo de vídeo, como séries de TV, transmissões esportivas e imagens de vigilância diária de fontes públicas. Os dados são todos anotados de alta qualidade e o LLM é usado para filtrar problemas desafiadores. É relatado que o conjunto de dados LVBench cobre uma variedade de tarefas, como resumo de vídeo, detecção de eventos, reconhecimento de caracteres e compreensão de cena.

QQ截图20240617145801.png

O lançamento do benchmark LVBench não visa apenas testar o raciocínio e as capacidades operacionais do modelo em cenários de vídeo longos, mas também promover avanços e inovações em tecnologias relacionadas para alcançar tomadas de decisão inteligentes incorporadas, análises aprofundadas de filmes e televisão e esportes profissionais. comentários no campo de vídeos longos As necessidades de aplicação injetam um novo impulso.

Muitas instituições de pesquisa começaram a trabalhar no conjunto de dados LVBench, expandindo gradualmente os limites da inteligência artificial na compreensão dos fluxos de informação de longo prazo, construindo grandes modelos para tarefas de vídeo longas e injetando novas ideias na exploração contínua da compreensão de vídeo, multimodal aprendizagem e outros campos de vitalidade.

github: https://github.com/THUDM/LVBench

Projeto: https://lvbench.github.io

Artigo: https://arxiv.org/abs/2406.08035

O lançamento do projeto LVBench marca uma nova etapa no desenvolvimento da tecnologia de compreensão de vídeos longos. Os ricos conjuntos de dados e as tarefas desafiadoras que ele fornece atrairão mais pesquisadores para participar, acelerarão o progresso da inteligência artificial no campo da compreensão de vídeos longos e. trazer benefícios para aplicações futuras. Mais possibilidades. Ansioso por mais resultados de pesquisas baseadas no LVBench no futuro.