AIビデオ検索エンジン(AVSE)
AIの最新のツールを搭載したビデオ検索エンジン
なぜ?
TiktokとYouTubeを使用した短い形式のコンテンツの上昇により。これまで以上に多くの知識がビデオにあります。何百万ものビデオ内で具体的な答えを見つけることは、一人の人が経験するのが難しい場合があります。したがって、質問のコンテキストに基づいて見つけやすいWebサイトにテキストをインデックスを作成するGoogleがある場合、ユーザーが自分の内部で回答を見つけやすくするビデオコンテンツをインデックス化するGoogleがないのはなぜですか。
そこで、私はこれを構築して、すぐに利用できるテクノロジーとインフラストラクチャで非常に可能であることを紹介しました。
技術スタック
- supbase(postgresql、pg_vector、auth)
- hasura(graphqlレイヤー、許可)
- Fly(Hasuraのホスティング)
- JigsawStack(概要AI、チャットAI)
- Vercel(nextjsホスティング、サーバーレス関数)
どのように機能しますか?
ビデオの保管
- ビデオ転写はYouTubeビデオから抽出されています
- https://huggingface.co/supabase/gte-smallディメンションサイズに基づいて、転写はタイムスタンプとともにチャンクされています
- PG_VECTOR拡張およびインデックス作成を使用してPostgres DBに保存されます
検索
- 質問に基づいてDBを横切るベクトルCOSINE検索で、再味の結果を返します
- 結果の各ビデオは2回目の検索を実行して、質問に関連するビデオのチャンクを見つけます
- チャンクはタイムスタンプのトランスクリプトに戻ってマップされ、ビデオのリラバリなクリップを再生します
要約とチャット
- ビデオの転写は、ポイントフォームとテキストの両方で概要についてはJigsawStack APIに送信されます
- チャットセッションはJigsawstack APIによって作成および管理され、ビデオの関連するチャンクは質問に基づいてチャットセッションに送信されます
自分でホストするために注意すべきこと
- 数千から数百万のビデオのインデックスを作成する予定がある場合は、有料のSupabase&Fly.ioアカウントが必要です
admin/config/fly.toml hasuraを飛行するために展開するために必要な構成で構成されていますadmin/migration移行ダンプHasuraCLIを介してスキーマを再現するために使用できるhasura init migration --endpoint <hasuraurl.fly.app> --admin-secret <admin_secret> adminの移行フォルダーを更新するadmin/indexChannelVideos.tsスクリプトYouTubeチャンネルで多数のビデオをローカルにインデックスする.env.exampleプロジェクトに実行するために必要なキー
よくある質問
YouTubeはこれをしませんか?
- 実際には、YouTubeはビデオの転写されたオーディオを検索しませんが、タイトル、説明、タグなどのアップローダーの書かれたコンテンツに依存しています。すべてのオーディオコンテンツがインデックスされていませんが。
このスタックは何百万ものビデオをどのように処理しますか?
- この現在のセットアップでは、数十億/兆個ではありません。より多くのレプリカ、インスタンス、特に$が必要です
次は何ですか?
- ビデオソースとしてTiktokを追加します
- https://replicate.com/vaibhavs10/incredibly-fast-whisperを追加して、オーディオを転写します
- クエリパフォーマンスを大幅に改善します
- すべてのアクティブなチャットを表示するページ