Artikel ini memperkenalkan seri ShareGPT4Video, sebuah proyek yang bertujuan untuk meningkatkan kemampuan pemahaman video dari model bahasa video skala besar (LVLM) dan kemampuan pembuatan video dari model teks-ke-video (T2VM). Seri ini terdiri dari tiga bagian utama: ShareGPT4Video, kumpulan data teks padat yang terdiri dari 40.000 video yang diberi anotasi oleh GPT4V; ShareCaptioner-Video, model pembuatan teks video yang efisien, yang telah digunakan untuk memberi anotasi pada 4.800.000 video; dan satu dari tiga tolok ukur video ShareGPT4Video-8B , model LVLM yang mencapai kinerja SOTA. Tim peneliti mengatasi masalah kurangnya detail dan kebingungan waktu dalam pembuatan subtitle video dengan metode yang ada, dan mencapai pembuatan subtitle video berkualitas tinggi dan terukur melalui strategi subtitle video diferensial yang dirancang dengan cermat.
1) ShareGPT4Video, kumpulan subtitle padat yang terdiri dari 40.000 video dengan durasi dan sumber berbeda-beda yang dianotasi oleh GPT4V, dikembangkan melalui strategi pemfilteran dan anotasi data yang dirancang dengan cermat.
2) ShareCaptioner-Video, model pembuatan subtitle video yang efisien dan kuat yang cocok untuk video arbitrer, yang memberi anotasi pada 4.800.000 video estetika berkualitas tinggi.
3) ShareGPT4Video-8B, LVLM sederhana namun unggul, mencapai kinerja SOTA pada tiga benchmark video tingkat lanjut.
Selain anotator manusia yang tidak dapat diskalakan dan mahal, penelitian ini menemukan bahwa penggunaan GPT4V untuk menghasilkan subtitel untuk video dengan strategi masukan multi-frame atau rangkaian bingkai yang sederhana menghasilkan hasil yang kurang detail dan terkadang kacau untuk sementara. Tim peneliti percaya bahwa tantangan merancang strategi subtitle video berkualitas tinggi terletak pada tiga aspek:
1) Memahami perubahan temporal yang tepat antar frame.
2) Jelaskan konten rinci dalam bingkai.
3) Skalabilitas jumlah frame untuk video dengan durasi berapa pun.
Untuk mencapai tujuan ini, para peneliti dengan hati-hati merancang strategi subtitle video diferensial yang stabil, terukur, dan efisien untuk menghasilkan subtitle video dengan resolusi, rasio aspek, dan panjang sewenang-wenang. ShareGPT4Video dibuat berdasarkan ini, yang berisi 40.000 video berkualitas tinggi yang mencakup berbagai kategori. Subtitel yang dihasilkan berisi pengetahuan dunia yang kaya, properti objek, pergerakan kamera, dan deskripsi waktu yang detail dan tepat dari peristiwa-peristiwa penting.
Berdasarkan ShareGPT4Video, ShareCaptioner-Video telah dikembangkan lebih lanjut, model pembuatan subtitle luar biasa yang secara efisien dapat menghasilkan subtitle berkualitas tinggi untuk video apa pun. Kami menggunakannya untuk memberi anotasi pada 4.800.000 video yang menarik secara estetika dan memverifikasi keefektifannya dalam tugas pembuatan teks ke video berdurasi 10 detik. ShareCaptioner-Video merupakan model subtitle video unggulan four-in-one dengan fitur sebagai berikut: Quick Caption, Sliding Caption, Clip Summary dan Quick Re-subtitle.

Dalam hal pemahaman video, tim peneliti juga memverifikasi efektivitas ShareGPT4Video pada beberapa arsitektur LVLM saat ini dan menyajikan LVLM ShareGPT4Video-8B baru yang luar biasa.
Pintu masuk produk: https://top.aibase.com/tool/sharegpt4video
Seri ShareGPT4Video telah membawa kemajuan signifikan dalam bidang pemahaman dan pembuatan video, dan kumpulan data serta modelnya yang berkualitas tinggi diharapkan dapat mendorong pengembangan lebih lanjut dari teknologi terkait. Kunjungi tautan untuk lebih jelasnya.