clifs
1.0.0
Clifsは、一致するコンテンツを持つビデオフレームをビデオで検索する無料のテキスト検索の概念実証です。これは、OpenAIのクリップモデルを使用して行われます。これは、対応するキャプションと画像を一致させるようにトレーニングされ、逆も同様です。検索は、最初にクリップ画像エンコーダーを使用してビデオフレームから機能を抽出し、クリップテキストエンコーダーを介して検索クエリの機能を取得することによって行われます。その後、機能は類似性と一致し、設定されたしきい値を超えると、上部の結果が返されます。
Clifsバックエンドを簡単に使用できるようにするために、Djangoを実行しているシンプルなWebサーバーを使用して、検索エンジンにインターフェイスを提供します。
このモデルの能力についてのアイデアを与えるために、検索クエリをBOLDで、結果を以下に示します。これらの検索クエリは、UrbanTrackerデータセットからの2分間のSherbrookeビデオに対して行われます。各クエリの上部画像結果のみが表示されます。モデルは実際にはOCRが非常に能力があることに注意してください。





./setup.sh data/inputディレクトリにインデックスを付けたい独自のビデオファイルを配置します
Docker-Composeを介して検索エンジンとWebサーバーのコンテナを構築して起動します。
docker-compose build && docker-compose upオプションで、ホスト環境にNVIDIA GPUがあり、Docker GPUサポートのためにセットアップされている場合、GPUサポートを備えたDocker-Composeファイルを使用できます。
docker-compose build && docker-compose -f docker-compose-gpu.yml updata/inputディレクトリ内のファイルの機能がエンコードされたら、127.0.0.1:8000に移動して検索します。