Unduh yt semantic search - Unduh Kode Sumber yt semantic search

yt semantic search

Kode sumber lainnya

1.0.0

Unduh

Cari podcast all-in menggunakan AI

Pencarian semantik YouTube

Pencarian semantik bertenaga openai untuk playlist youtube apa pun-menampilkan podcast all-in

Intro
Bagaimana memulai
Contoh kueri
Tangkapan layar
Cara kerjanya
Todo
Masukan
Kredit
Lisensi

Intro

Saya suka podcast all-in. Tetapi pencarian dan penemuan dengan podcast bisa sangat menantang.

Saya membangun proyek ini untuk menyelesaikan masalah ini ... dan saya juga ingin bermain -main dengan hal -hal AI keren. ?

Proyek ini menggunakan model terbaru dari OpenAi untuk membangun indeks pencarian semantik di setiap episode pod. Ini memungkinkan Anda untuk menemukan momen favorit Anda dengan akurasi level Google dan menyusun ulang klip persis yang Anda minati.

Anda dapat menggunakannya untuk memberi daya pada pencarian lanjutan di seluruh saluran YouTube atau daftar putar . Demo ini menggunakan podcast all-in karena itu adalah favorit saya?, Tetapi dirancang untuk bekerja dengan daftar putar.

Bagaimana memulai

Kloning repositori ke mesin lokal Anda.
Arahkan ke direktori root repositori di terminal Anda.
Jalankan perintah npm install untuk menginstal semua dependensi yang diperlukan.
Jalankan perintah npx tsx src/bin/resolve-yt-playlist.ts untuk mengunduh transkrip bahasa Inggris untuk setiap episode daftar putar target (dalam hal ini, daftar putar episode all-in episode).
Jalankan perintah npx tsx src/bin/process-yt-playlist.ts untuk pra-proses transkrip dan ambil embeddings dari OpenAi, kemudian masukkan ke dalam indeks pencarian Pinecone.
Anda sekarang dapat menjalankan perintah npx tsx src/bin/query.ts untuk meminta indeks pencarian pinecone. (Opsional) Jalankan perintah npx tsx src/bin/generate-thumbnails.ts untuk menghasilkan thumbnail waktu dari setiap video di daftar putar. Langkah ini memakan waktu ~ 2 jam dan membutuhkan koneksi internet yang stabil.
Frontend dari proyek ini adalah Webapp Next.js yang digunakan untuk Vercel yang menggunakan indeks Pinecone sebagai penyimpanan data primer. Anda dapat menjalankan perintah npm run dev untuk memulai server pengembangan dan melihat webapp secara lokal.

Perhatikan bahwa beberapa episode mungkin tidak memiliki transkripsi bahasa Inggris otomatis yang tersedia, dan bahwa proyek menggunakan solusi pengikis HTML hacky untuk ini, jadi solusi yang lebih baik adalah menggunakan Whisper untuk menuliskan audio episode. Juga, penyortiran dukungan proyek berdasarkan kebaruan vs relevansi.

Contoh kueri

Sweater Karen
Saran terbaik untuk pendiri
Kisah poker dari tadi malam
Skema scam crypto ponzi
Chamath Sweater Mewah
Phil Helmuth
kejujuran intelektual
SBF FTX
Science Corner

Tangkapan layar

Mode Cahaya Desktop Mode Gelap Desktop

Cara kerjanya

Di bawah kap, ia menggunakan:

Openai-Kami menggunakan model embedding teks-embedding-002 baru, yang menangkap informasi yang lebih dalam tentang teks dalam ruang laten dengan dimensi 1536
- Ini memungkinkan kami untuk melampaui pencarian kata kunci dan pencarian berdasarkan topik tingkat yang lebih tinggi.
Pinecone - Pencarian vektor yang di -host yang memungkinkan kami untuk melakukan pencarian K -NN secara efisien di seluruh embedding ini
Vercel - fungsi hosting dan API
Next.js - React Web Framework

Kami menggunakan Node.js dan YouTube API V3 untuk mengambil video dari daftar putar target kami. Dalam hal ini, kami fokus pada playlist Episode Podcast All-in, yang berisi 108 video pada saat penulisan.

npx tsx src/bin/resolve-yt-playlist.ts

Kami mengunduh transkrip bahasa Inggris untuk setiap episode menggunakan solusi pengikis HTML hacky, karena API YouTube tidak mengizinkan akses non-Oauth ke teks. Perhatikan bahwa beberapa episode tidak memiliki transkripsi bahasa Inggris yang tersedia, jadi kami hanya melewatkannya saat ini. Solusi yang lebih baik adalah menggunakan Whisper untuk menuliskan audio setiap episode.

Setelah kami memiliki semua transkrip dan metadata yang diunduh secara lokal, kami melakukan pra-proses transkrip masing-masing video, memecahnya menjadi potongan-potongan berukuran ~ 100 token dan mengambil embedding teks-embedding-002 dari openai. Ini menghasilkan ~ 200 embeddings per episode.

Semua embeddings ini kemudian ditingkatkan menjadi indeks pencarian pinus dengan dimensi 1536. Ada ~ 17.575 embeddings secara total di ~ 108 episode podcast all-in.

npx tsx src/bin/process-yt-playlist.ts

Setelah Indeks Pencarian Pinecone kami diatur, kami dapat mulai menanyakannya melalui Webapp atau melalui contoh CLI:

npx tsx src/bin/query.ts

Kami juga mendukung menghasilkan thumbnail berbasis waktu dari setiap video YouTube di daftar putar. Thumbnail dihasilkan menggunakan dalang tanpa kepala dan diunggah ke Google Cloud Storage. Kami juga pasca proses setiap thumbnail dengan LQIP-modern untuk menghasilkan gambar placeholder pratinjau yang bagus.

Jika Anda ingin menghasilkan thumbnail (opsional), jalankan:

npx tsx src/bin/generate-thumbnails.ts

Perhatikan bahwa generasi minimal membutuhkan ~ 2 jam dan membutuhkan koneksi internet yang cukup stabil.

Frontend adalah WebApp berikutnya yang digunakan untuk Vercel yang menggunakan indeks Pinecone kami sebagai penyimpanan data primer.

Todo

Gunakan Whisper untuk transkripsi yang lebih baik
Mendukung penyortiran berdasarkan kebaruan vs relevansi

Masukan

Punya ide tentang bagaimana Webapp ini dapat ditingkatkan? Temukan pertanyaan pencarian yang sangat menyenangkan?

Jangan ragu untuk mengirimi saya umpan balik, baik di GitHub atau Twitter. ?

Kredit

Terinspirasi oleh proyek Riley Tomasek untuk mencari saluran YouTube Huberman
Perhatikan bahwa proyek ini tidak berafiliasi dengan podcast all-in. Itu hanya menarik data dari saluran YouTube mereka dan memprosesnya menggunakan AI.

Lisensi

Jika Anda menemukan proyek ini menarik, silakan pertimbangkan untuk mensponsori saya atau mengikuti saya di Twitter

Biaya API dan server bertambah dari waktu ke waktu, jadi jika Anda bisa menyisihkannya, mensponsori GitHub sangat dihargai. ?

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-03-11
ukuran 1.31MB
Berasal dari Github

Aplikasi Terkait

yt channel downloader

2024-11-11
yt music archive

2024-11-11
YT DOW

2024-11-10
Pencarian Kata 800

2024-11-08
azure search python samples

2024-11-05
yt dlp

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua