clifs
1.0.0
CLIF是通過視頻搜索帶有匹配內容的視頻幀的免費文本概念驗證。這是使用OpenAI的剪輯模型完成的,該模型經過訓練,可以與相應的字幕匹配圖像,反之亦然。搜索是通過首先使用剪輯圖像編碼從視頻幀中提取功能,然後通過剪輯文本編碼來獲取搜索查詢的功能來完成的。然後,如果超過設定的閾值,則功能與相似性匹配,並返回頂部結果。
為了輕鬆使用CLIFS後端,使用運行Django的簡單Web服務器為搜索引擎提供接口。
為了了解該模型的能力,下面顯示了一些示例,其中搜索查詢為粗體,結果下面。這些搜索查詢是根據UrbanTracker數據集的2分鐘Sherbrooke視頻進行的。僅顯示每個查詢的頂部圖像結果。請注意,該模型實際上具有OCR。





./setup.sh將自己要在data/input目錄中索引的視頻文件
通過Docker-Compose構建並啟動搜索引擎和Web服務器容器:
docker-compose build && docker-compose up可選地,如果主機環境具有NVIDIA GPU,可以使用帶有GPU支持的Docker-Compose文件,並且已設置用於Docker GPU支持:
docker-compose build && docker-compose -f docker-compose-gpu.yml updata/input目錄中的文件的功能進行編碼,如日誌所示,請導航至127.0.0.1:8000並蒐索。