เครื่องมือค้นหาวิดีโอ AI (AVSE)
เครื่องมือค้นหาวิดีโอที่ขับเคลื่อนด้วยเครื่องมือล่าสุดใน AI
ทำไม
ด้วยการเพิ่มขึ้นของเนื้อหาแบบฟอร์มสั้น ๆ ด้วย Tiktok และ YouTube มีความรู้มากขึ้นในวิดีโอมากกว่าที่เคยเป็นมา การค้นหาคำตอบที่เฉพาะเจาะจงภายในวิดีโอนับล้านอาจเป็นเรื่องยากสำหรับคน ๆ หนึ่งที่จะผ่าน ดังนั้นคำถามคือถ้ามี Google ที่จัดทำดัชนีข้อความบนเว็บไซต์ทำให้ง่ายต่อการค้นหาตามบริบทของคำถามของคุณทำไมไม่มี Google ที่จัดทำดัชนีเนื้อหาวิดีโอทำให้ผู้ใช้ค้นหาคำตอบได้ง่ายขึ้น
ดังนั้นฉันจึงสร้างสิ่งนี้เพื่อแสดงว่าเป็นไปได้มากกับเทคโนโลยีและโครงสร้างพื้นฐานที่พร้อมใช้งาน
ซ้อนเทค
- Supbase (PostgreSQL, PG_VECTOR, Auth)
- Hasura (GraphQl Layer, Permissions)
- บิน (โฮสติ้งของ Hasura)
- JIGSAWSTACK (สรุป AI, แชท AI)
- Vercel (NextJS Hosting, ฟังก์ชั่น Serverless)
มันทำงานอย่างไร?
การจัดเก็บวิดีโอ
- การถอดความวิดีโอถูกดึงออกมาจากวิดีโอ YouTube
- การถอดความถูก chunked พร้อมกับการประทับเวลาตาม https://huggingface.co/supabase/gte-small ขนาดขนาดมิติ
- เก็บไว้ใน postgres db ด้วยการใช้ส่วนขยาย PG_VECTOR และการจัดทำดัชนี
การค้นหา
- เวกเตอร์โคไซน์ค้นหาข้ามฐานข้อมูลตามคำถามเพื่อส่งคืนผลลัพธ์ relavant
- วิดีโอแต่ละรายการในผลลัพธ์จะทำการค้นหาครั้งที่สองเพื่อค้นหาวิดีโอที่เกี่ยวข้องกับคำถาม
- ชิ้นส่วนจะถูกแมปกลับไปยังทรานสคริปต์ timestamped เพื่อเล่นคลิป relavant ของวิดีโอ
สรุปและแชท
- การถอดความวิดีโอจะถูกส่งไปยัง JigSawstack API สำหรับสรุปในทั้งสองรูปแบบและข้อความ
- การแชทจะถูกสร้างและจัดการโดย JigSawstack API ชิ้นส่วนที่เกี่ยวข้องของวิดีโอจะถูกส่งไปยังเซสชันแชทตามคำถาม
สิ่งที่ควรทราบเพื่อโฮสต์ด้วยตัวเอง
- คุณจะต้องมีบัญชี supabase & fly.io ที่ชำระเงินหากคุณวางแผนที่จะจัดทำดัชนีวิดีโอหลายพันเป็นล้านวิดีโอ
-
admin/config/fly.toml ประกอบด้วยการกำหนดค่าที่จำเป็นในการปรับใช้ Hasura เพื่อบิน - Dump การย้ายถิ่นของ
admin/migration คุณสามารถใช้เพื่อสร้างสคีมาใหม่ผ่าน Hasura CLI -
hasura init migration --endpoint <hasuraurl.fly.app> --admin-secret <admin_secret> เพื่ออัปเดตโฟลเดอร์การโยกย้ายใน admin - สคริปต์
admin/indexChannelVideos.ts เพื่อจัดทำดัชนีวิดีโอจำนวนมากในเครื่องด้วยช่อง YouTube -
.env.example Keys จำเป็นต้องวิ่งไปที่โครงการ
คำถามที่พบบ่อย
YouTube ไม่ทำอย่างนี้เหรอ?
- ไม่จริง YouTube ไม่ได้ค้นหาเสียงที่ถอดความของวิดีโอ แต่ขึ้นอยู่กับเนื้อหาที่เขียนของผู้อัปโหลดเช่นชื่อคำอธิบายแท็ก ในขณะที่เนื้อหาเสียงทั้งหมดจะถูกปิดกั้น
สแต็กนี้จะจัดการกับวิดีโอหลายล้านรายการได้อย่างไร?
- มันสามารถจัดการกับคนนับล้าน แต่อาจไม่ใช่พันล้าน/ล้านล้านด้วยการตั้งค่าปัจจุบันนี้ ซึ่งต้องใช้แบบจำลองอินสแตนซ์และโดยเฉพาะอย่างยิ่ง $
ถัดไปคืออะไร?
- เพิ่ม tiktok เป็นแหล่งวิดีโอ
- เพิ่ม https://replicate.com/vaibhavs10/incrediblethably-fast-whisper เพื่อถอดเสียง
- ปรับปรุงประสิทธิภาพการสอบถามอย่างมีนัยสำคัญ
- หน้าเพื่อดูแชทที่ใช้งานอยู่ทั้งหมด