AI Video Suchmaschine (AVSE)
Eine Video -Suchmaschine, die von den neuesten Tools in AI betrieben wird
Warum?
Mit dem Aufstieg von Kurzforminhalten mit Tiktok und YouTube. Es gibt viel mehr Wissen in Videos als je zuvor. Das Finden spezifischer Antworten innerhalb von Millionen von Videos kann für eine Person schwierig sein, um durchzugehen. Die Frage ist also, ob Google, der Text auf der Website indiziert, das Finden basierend auf dem Kontext Ihrer Frage, warum es kein Google gibt, der Videoinhalte in Indizes erleichtert, damit Benutzer Antworten darin finden.
Deshalb habe ich dies gebaut, um zu zeigen, dass es mit der leicht verfügbaren Technologie und Infrastruktur sehr gut möglich ist.
Tech Stack
- SupBase (Postgresql, pg_vector, auth)
- Hasura (GraphQL -Schicht, Berechtigungen)
- Fliegen (Hosting von Hasura)
- Jigsawstack (Zusammenfassung AI, Chat AI)
- Vercel (NextJS Hosting, serverlose Funktionen)
Wie funktioniert es?
Speichern von Videos
- Video -Transkription wird aus YouTube -Video extrahiert
- Transkriptionen werden zusammen mit dem Zeitstempel basierend auf https://huggingface.co/supabase/gte-small Dimension Größe
- Gespeichert in Postgres DB mit Verwendung der Erweiterung und der Indexierung von PG_VECTOR
Suche
- Vector Cosinus -Suche über die DB basiert auf der Frage, um die relavanten Ergebnisse zurückzugeben
- Jedes Video im Ergebnis führt eine zweite Suche durch, um verwandte Videobrocken zur Frage zu finden
- Die Stücke werden auf das Timestempel -Transkript zurückgezogen, um den relavanten Clip des Videos abzuspielen
Zusammenfassung & Chat
- Die Transkription von Video wird zur Zusammenfassung sowohl in Punktform als auch in Text an die Jigsawstack -API gesendet
- Die Chat -Sitzungen werden von der Jigsawstack -API erstellt und verwaltet. Verwandte Teile des Videos werden anhand von Fragen an die Chat -Sitzung gesendet
Dinge zu beachten, um es selbst zu hosten
- Sie benötigen ein kostenpflichtiges Supabase & Fly.io -Konto, wenn Sie planen, Tausende bis Millionen Videos zu indizieren
-
admin/config/fly.toml bestehen aus Konfigurationen, die für die Bereitstellung von HEDURA zum Fliegen erforderlich sind -
admin/migration -Migration -Dump Sie können das Schema über Hasura CLI neu erstellen -
hasura init migration --endpoint <hasuraurl.fly.app> --admin-secret <admin_secret> , um den Migrationsordner in admin zu aktualisieren -
admin/indexChannelVideos.ts Skript, um eine große Anzahl von Videos lokal mit YouTube -Kanälen zu indexieren -
.env.example -Tasten, die zum Projekt ausgeführt werden mussten
FAQ
Tut YouTube das nicht?
- Nicht wirklich, YouTube durchsucht das transkribierte Audio des Videos nicht, sondern stützt sich auf den geschriebenen Inhalt des Uploaders wie Titel, Beschreibung, Tags. Während alle Audioinhalte nicht indiziert werden.
Wie wird dieser Stapel mit Millionen von Videos umgehen?
- Mit diesem aktuellen Setup kann es mit Millionen, aber vielleicht nicht Milliarden/Billionen umgehen. Dies erfordert mehr Repliken, Instanzen und insbesondere $ $
Was kommt als nächstes?
- Fügen Sie Tiktok als Videoquelle hinzu
- Fügen Sie https://replikat.com/vaibhavs10/incribible-fast-whisper hinzu, um Audio zu transkribieren
- Verbesserung der Abfrageleistung erheblich
- Seite, um alle aktiven Chats anzuzeigen