CLIFS является доказательством концепции бесплатного поиска текста через видео для видео кадров с соответствующим содержанием. Это делается с использованием модели клипа Openai, которая обучена соответствовать изображениям с соответствующими подписями и наоборот. Поиск выполняется, сначала извлекая функции из видео кадров с помощью энкодера изображения клипа, а затем получения функций для поискового запроса через энкодер текста клипа. Затем функции соответствуют сходству, а верхние результаты возвращаются, если выше порогового значения.
Чтобы легко использовать бэкэнд CLIFS, простой веб -сервер, управляющий Django, используется для предоставления интерфейса для поисковой системы.
Чтобы дать представление о возможностях этой модели, ниже показаны несколько примеров, приведенный ниже поисковый запрос в жирном шрифчике и результат ниже. Эти поисковые запросы выполняются против 2 -минутного видео Sherbrooke из набора данных UrbanTracker. Показан только лучший результат изображения для каждого запроса. Обратите внимание, что модель на самом деле вполне способна к OCR.





./setup.sh Поместите свои собственные видеофайлы, которые вы хотите индексировать в каталоге data/input
Создайте и запустите контейнеры поискового и веб-сервера через Docker-Compose:
docker-compose build && docker-compose upПри желании можно использовать файл с поддержкой GPU с поддержкой GPU, если в среде хоста есть графический процессор NVIDIA и настроен на поддержку GPU Docker:
docker-compose build && docker-compose -f docker-compose-gpu.yml updata/input были закодированы, как показано в журнале, перейдите к 127.0.0.1:8000 и найдите в стороне.