CLIFS adalah bukti konsep untuk pencarian teks gratis melalui video untuk bingkai video dengan konten yang cocok. Ini dilakukan dengan menggunakan model klip Openai, yang dilatih untuk mencocokkan gambar dengan keterangan yang sesuai dan sebaliknya. Pencarian dilakukan dengan pertama -tama mengekstraksi fitur dari bingkai video menggunakan clip image encoder dan kemudian mendapatkan fitur untuk kueri pencarian melalui clip text encoder. Fitur -fitur tersebut kemudian dicocokkan dengan kesamaan dan hasil teratas dikembalikan, jika di atas ambang batas yang ditetapkan.
Untuk mengizinkan penggunaan backend CLIF yang mudah, server web sederhana yang menjalankan Django digunakan untuk menyediakan antarmuka ke mesin pencari.
Untuk memberikan gambaran tentang kemampuan model ini, beberapa contoh ditunjukkan di bawah ini, dengan kueri pencarian dalam huruf tebal dan hasilnya di bawah ini. Pertanyaan pencarian ini dilakukan terhadap video Sherbrooke 2 menit dari dataset UrbanTracker. Hanya hasil gambar atas untuk setiap kueri yang ditampilkan. Perhatikan bahwa model tersebut sebenarnya cukup mampu OCR.





./setup.sh Letakkan file video Anda sendiri yang ingin Anda indeks di direktori data/input
Bangun dan mulai mesin pencari dan wadah server web melalui komposisi Docker:
docker-compose build && docker-compose upSecara opsional, file komposisi Docker dengan dukungan GPU dapat digunakan jika lingkungan host memiliki GPU NVIDIA dan disetel untuk dukungan GPU Docker:
docker-compose build && docker-compose -f docker-compose-gpu.yml updata/input telah dikodekan, seperti yang ditunjukkan pada log, navigasikan ke 127.0.0.1:8000 dan cari.