Este artigo apresenta a série ShareGPT4Video, um projeto que visa melhorar as capacidades de compreensão de vídeo de modelos de linguagem de vídeo em larga escala (LVLMs) e as capacidades de geração de vídeo de modelos de texto para vídeo (T2VMs). A série consiste em três partes principais: ShareGPT4Video, um denso conjunto de dados de legendas de 40.000 vídeos anotados por GPT4V; ShareCaptioner-Video, um modelo eficiente de geração de legendas de vídeo, que foi usado para anotar 4.800.000 vídeos e um em três benchmarks de vídeo ShareGPT4Video-8B; , um modelo LVLM que atinge desempenho SOTA. A equipe de pesquisa superou os problemas de falta de detalhes e confusão de tempo na geração de legendas de vídeo nos métodos existentes e alcançou geração de legendas de vídeo escalonáveis e de alta qualidade por meio de uma estratégia diferencial de legendas de vídeo cuidadosamente projetada.
1) ShareGPT4Video, uma densa coleção de legendas de 40.000 vídeos de diferentes durações e fontes anotadas pelo GPT4V, desenvolvida por meio de estratégias de filtragem e anotação de dados cuidadosamente projetadas.
2) ShareCaptioner-Video, um modelo eficiente e poderoso de geração de legendas de vídeo adequado para vídeos arbitrários, que anota 4.800.000 vídeos estéticos de alta qualidade.
3) ShareGPT4Video-8B, um LVLM simples, mas superior, atinge desempenho SOTA em três benchmarks de vídeo avançados.
Além de anotadores humanos caros e não escalonáveis, o estudo descobriu que o uso do GPT4V para gerar legendas para vídeos com uma estratégia simples de entrada de concatenação de vários quadros ou quadros resultou em resultados que careciam de detalhes e às vezes eram temporariamente distorcidos. A equipe de pesquisa acredita que o desafio de projetar estratégias de legendas de vídeos de alta qualidade reside em três aspectos:
1) Compreenda as mudanças temporais precisas entre os quadros.
2) Descreva o conteúdo detalhado do quadro.
3) Escalabilidade do número de quadros para vídeos de duração arbitrária.
Para esse fim, os pesquisadores projetaram cuidadosamente uma estratégia diferencial de legendas de vídeo que é estável, escalável e eficiente para gerar legendas de vídeo com resoluções, proporções e comprimentos arbitrários. O ShareGPT4Video foi construído com base nisso, contendo 40.000 vídeos de alta qualidade cobrindo uma ampla gama de categorias. As legendas geradas contêm rico conhecimento do mundo, propriedades de objetos, movimentos de câmera e descrições de tempo detalhadas e precisas de eventos importantes.
Baseado no ShareGPT4Video, o ShareCaptioner-Video foi desenvolvido, um excelente modelo de geração de legendas que pode gerar legendas de alta qualidade para qualquer vídeo com eficiência. Nós o usamos para anotar 4.800.000 vídeos esteticamente atraentes e verificar sua eficácia em uma tarefa de geração de texto para vídeo de 10 segundos. ShareCaptioner-Video é um modelo de legenda de vídeo superior quatro em um com os seguintes recursos: legenda rápida, legenda deslizante, resumo do clipe e nova legenda rápida.

Em termos de compreensão de vídeo, a equipe de pesquisa também verificou a eficácia do ShareGPT4Video em diversas arquiteturas LVLM atuais e apresentou o novo e excelente LVLM ShareGPT4Video-8B.
Entrada do produto: https://top.aibase.com/tool/sharegpt4video
A série ShareGPT4Video trouxe um progresso significativo no campo da compreensão e geração de vídeo, e espera-se que seus conjuntos de dados e modelos de alta qualidade promovam o desenvolvimento de tecnologias relacionadas. Visite o link para mais detalhes.