Mesin pencari video AI (AVSE)
Mesin pencari video yang ditenagai oleh alat terbaru di AI
Mengapa?
Dengan munculnya konten bentuk pendek dengan Tiktok dan YouTube. Lebih banyak pengetahuan ada di video daripada sebelumnya. Menemukan jawaban spesifik dalam jutaan video mungkin sulit untuk dilalui oleh satu orang. Jadi pertanyaannya adalah apakah ada Google yang mengindeks teks di situs web yang membuatnya lebih mudah ditemukan berdasarkan konteks pertanyaan Anda, mengapa tidak ada Google yang mengindeks konten video yang memudahkan pengguna untuk menemukan jawaban di dalamnya.
Jadi saya membangun ini untuk menunjukkan bahwa sangat mungkin dengan teknologi dan infrastruktur yang tersedia.
Tumpukan teknologi
- Supbase (PostgreSQL, PG_VECTOR, AUTH)
- Hasura (lapisan graphql, izin)
- Terbang (hosting Hasura)
- Jigsawstack (Ringkasan AI, obrolan AI)
- Vercel (Hosting NextJS, Fungsi Tanpa Server)
Bagaimana cara kerjanya?
Menyimpan video
- Transkripsi video diekstraksi dari video youtube
- Transkripsi dipotong bersama dengan cap waktu berdasarkan https://huggingface.co/supabase/gte-small ukuran dimensi
- Disimpan di Postgres DB dengan penggunaan ekstensi dan pengindeksan PG_VECTOR
Pencarian
- Pencarian Cosinus Vektor di DB berdasarkan pertanyaan untuk mengembalikan hasil relavant
- Setiap video dalam hasilnya akan melakukan pencarian kedua untuk menemukan potongan video terkait pertanyaan
- Potongan akan dipetakan kembali ke transkrip waktu untuk memainkan klip relavant video
Ringkasan & Obrolan
- Transkripsi video akan dikirim ke Jigsawstack API untuk ringkasan dalam bentuk titik dan teks
- Sesi obrolan akan dibuat dan dikelola oleh Jigsawstack API, potongan -potongan terkait video akan dikirim ke sesi obrolan berdasarkan pertanyaan
Hal -hal yang perlu diperhatikan untuk menjadi tuan rumah sendiri
- Anda akan membutuhkan akun Supabase & Fly.io berbayar jika Anda berencana untuk mengindeks ribuan ke jutaan video
-
admin/config/fly.toml terdiri dari konfigurasi yang diperlukan untuk menggunakan hasura untuk terbang -
admin/migration migrasi dump yang dapat Anda gunakan untuk menciptakan kembali skema melalui Hasura Cli -
hasura init migration --endpoint <hasuraurl.fly.app> --admin-secret <admin_secret> Untuk memperbarui folder migrasi di admin -
admin/indexChannelVideos.ts skrip untuk mengindeks sejumlah besar video secara lokal dengan saluran YouTube -
.env.example Kunci yang Diperlukan untuk Berlari ke Proyeksi
FAQ
Bukankah YouTube melakukan ini?
- Tidak juga, YouTube tidak mencari audio video yang ditranskripsi tetapi malah bergantung pada konten tertulis dari pengunggah seperti judul, deskripsi, tag. Sementara semua konten audio tidak diindeks.
Bagaimana tumpukan ini akan menangani jutaan video?
- Ini dapat menangani jutaan tetapi mungkin bukan miliaran/triliunan dengan pengaturan saat ini. Yang membutuhkan lebih banyak replika, contoh, dan terutama $
Apa selanjutnya?
- Tambahkan Tiktok sebagai sumber video
- Tambahkan https://replicate.com/vaibhavs10/incredly-fast-whisper untuk mentranskripsi audio
- Meningkatkan kinerja kueri secara signifikan
- Halaman untuk melihat semua obrolan aktif