AI视频搜索引擎(AVSE)
由AI中最新工具提供动力的视频搜索引擎
为什么?
随着Tiktok和YouTube的简短形式内容的兴起。视频中比以往任何时候都更多的知识。在数百万个视频中找到具体答案可能很难通过任何人进行。因此,问题是,是否有Google在网站上索引文本,从而更容易根据您的问题上的上下文找到,为什么没有Google索引视频内容,从而使用户更容易在其中找到答案。
因此,我构建了这一点是为了展示,很有可能使用容易获得的技术和基础架构。
技术堆栈
- supbase(Postgresql,PG_Vector,Auth)
- hasura(GraphQl层,权限)
- 飞(Hasura主持)
- Jigsawstack(摘要AI,聊天AI)
- vercel(nextJS托管,无服务器功能)
它如何工作?
存储视频
- 视频转录是从YouTube视频中提取的
- 基于https://huggingface.co/supabase/gte-small dimension size size size yttps://huggingface.co/supabase/gte-small尺寸大小
- 使用PG_VECTOR扩展和索引存储在Postgres DB中
搜索
- 基于问题跨数据库的矢量余弦搜索以返回恢复结果
- 结果中的每个视频都将进行第二次搜索,以查找与该问题的视频相关块
- 这些块将映射回时间戳成绩单,以播放视频的恢复剪辑
摘要和聊天
- 视频的转录将发送到拼图stack API以摘要以点形式和文本
- 聊天会议将由Jigsawstack API创建和管理,视频的相关块将根据问题发送到聊天会话
值得注意的是自己托管
- 如果您打算为数千个视频索引数千个视频,则需要一个付费supabase&fly.io帐户
admin/config/fly.toml由部署hasura飞行所需的配置组成admin/migration迁移转储您可以用Hasura CLI重新创建模式hasura init migration --endpoint <hasuraurl.fly.app> --admin-secret <admin_secret>以更新admin中的迁移文件夹admin/indexChannelVideos.ts脚本以索引与YouTube频道本地的大量视频.env.example键需要运行到项目
常问问题
YouTube不这样做吗?
- 并非真的,YouTube不会搜索视频的转录音频,而是依赖上传器的书面内容,例如标题,描述,标签。而所有音频内容都没有索引。
这个堆栈如何处理数百万个视频?
- 通过此当前设置,它可以处理数百万但不可能的数十亿/万亿。需要更多的复制品,实例,尤其是$
接下来是什么?
- 添加Tiktok作为视频源
- 添加https://replate.com/vaibhavs10/incredible-fast-whisper以转录音频
- 显着提高查询性能
- 页面查看所有活动聊天