Universitas Tsinghua dan Universitas Peking berkolaborasi merilis tolok ukur pemahaman video panjang: LVBench

Penulis：Eve Cole Waktu Pembaruan：2025-02-23 06:25:02

LVBench, sebuah proyek tolok ukur pemahaman video panjang yang diluncurkan bersama oleh Zhipu, Universitas Tsinghua, dan Universitas Peking, bertujuan untuk memecahkan tantangan yang dihadapi oleh model bahasa besar multi-modal yang ada dalam memproses video panjang. Proyek ini menyediakan data QA selama beberapa jam yang mencakup berbagai jenis konten video seperti serial TV, siaran olahraga, dan video pengawasan, dan berisi 6 kategori utama dan 21 subkategori. Data tersebut dianotasi dengan kualitas tinggi dan LLM digunakan untuk menyaring masalah yang menantang. , mencakup berbagai tugas seperti ringkasan video, deteksi peristiwa, pengenalan karakter, dan pemahaman adegan. Peluncuran LVBench akan mempromosikan terobosan dan inovasi dalam teknologi pemahaman video panjang, memberikan dukungan kuat untuk aplikasi seperti pengambilan keputusan cerdas, ulasan film dan televisi yang mendalam, dan komentar olahraga profesional.

QQ截图20240617145826.png

Proyek ini berisi data QA selama beberapa jam dalam 6 kategori utama dan 21 subkategori, yang mencakup berbagai jenis konten video seperti serial TV, siaran olahraga, dan rekaman pengawasan harian dari sumber publik. Semua data diberi anotasi berkualitas tinggi dan LLM digunakan untuk menyaring masalah yang menantang. Dilaporkan bahwa kumpulan data LVBench mencakup berbagai tugas seperti peringkasan video, deteksi peristiwa, pengenalan karakter, dan pemahaman adegan.

QQ截图20240617145801.png

Peluncuran benchmark LVBench tidak hanya bertujuan untuk menguji logika model dan kemampuan pengoperasian dalam skenario video panjang, namun juga mempromosikan terobosan dan inovasi dalam teknologi terkait untuk mewujudkan pengambilan keputusan cerdas, tinjauan film dan televisi yang mendalam, dan olahraga profesional. komentar di bidang video panjang. Aplikasi perlu menyuntikkan dorongan baru.

Banyak lembaga penelitian telah mulai mengerjakan kumpulan data LVBench, secara bertahap memperluas batas-batas kecerdasan buatan dalam memahami arus informasi jangka panjang dengan membangun model besar untuk tugas-tugas video panjang, dan memasukkan ide-ide baru ke dalam eksplorasi lanjutan pemahaman video, multi-modal pembelajaran dan bidang vitalitas lainnya.

github:https://github.com/THUDM/LVBench

Proyek: https://lvbench.github.io

Makalah: https://arxiv.org/abs/2406.08035

Peluncuran proyek LVBench menandai tahap baru dalam pengembangan teknologi pemahaman video panjang. Kumpulan data yang kaya dan tugas-tugas menantang yang diberikannya akan menarik lebih banyak peneliti untuk berpartisipasi, mempercepat kemajuan kecerdasan buatan di bidang pemahaman video panjang, dan membawa manfaat untuk aplikasi masa depan. Menantikan lebih banyak lagi hasil penelitian berdasarkan LVBench di masa mendatang.