AI視頻搜索引擎(AVSE)
由AI中最新工具提供動力的視頻搜索引擎
為什麼?
隨著Tiktok和YouTube的簡短形式內容的興起。視頻中比以往任何時候都更多的知識。在數百萬個視頻中找到具體答案可能很難通過任何人進行。因此,問題是,是否有Google在網站上索引文本,從而更容易根據您的問題上的上下文找到,為什麼沒有Google索引視頻內容,從而使用戶更容易在其中找到答案。
因此,我構建了這一點是為了展示,很有可能使用容易獲得的技術和基礎架構。
技術堆棧
- supbase(Postgresql,PG_Vector,Auth)
- hasura(GraphQl層,權限)
- 飛(Hasura主持)
- Jigsawstack(摘要AI,聊天AI)
- vercel(nextJS託管,無服務器功能)
它如何工作?
存儲視頻
- 視頻轉錄是從YouTube視頻中提取的
- 基於https://huggingface.co/supabase/gte-small dimension size size size yttps://huggingface.co/supabase/gte-small尺寸大小
- 使用PG_VECTOR擴展和索引存儲在Postgres DB中
搜尋
- 基於問題跨數據庫的矢量餘弦搜索以返回恢復結果
- 結果中的每個視頻都將進行第二次搜索,以查找與該問題的視頻相關塊
- 這些塊將映射回時間戳成績單,以播放視頻的恢復剪輯
摘要和聊天
- 視頻的轉錄將發送到拼圖stack API以摘要以點形式和文本
- 聊天會議將由Jigsawstack API創建和管理,視頻的相關塊將根據問題發送到聊天會話
值得注意的是自己託管
- 如果您打算為數千個視頻索引數千個視頻,則需要一個付費supabase&fly.io帳戶
admin/config/fly.toml由部署hasura飛行所需的配置組成admin/migration遷移轉儲您可以用Hasura CLI重新創建模式hasura init migration --endpoint <hasuraurl.fly.app> --admin-secret <admin_secret>以更新admin中的遷移文件夾admin/indexChannelVideos.ts腳本以索引與YouTube頻道本地的大量視頻.env.example鍵需要運行到項目
常問問題
YouTube不這樣做嗎?
- 並非真的,YouTube不會搜索視頻的轉錄音頻,而是依賴上傳器的書面內容,例如標題,描述,標籤。而所有音頻內容都沒有索引。
這個堆棧如何處理數百萬個視頻?
- 通過此當前設置,它可以處理數百萬但不可能的數十億/萬億。需要更多的複製品,實例,尤其是$
接下來是什麼?
- 添加Tiktok作為視頻源
- 添加https://replate.com/vaibhavs10/incredible-fast-whisper以轉錄音頻
- 顯著提高查詢性能
- 頁面查看所有活動聊天