Téléchargement yt semantic search - Téléchargement du code source yt semantic search

yt semantic search

Autre code source

1.0.0

Télécharger

Recherchez le podcast tout-in à l'aide de l'IA

Recherche sémantique YouTube

Recherche sémantique Openai pour toute liste de lecture YouTube - avec le podcast tout-in

Introduction
Comment commencer
Exemples de requêtes
Captures d'écran
Comment ça marche
FAIRE
Retour
Crédit
Licence

Introduction

J'adore le podcast tout-in. Mais la recherche et la découverte avec des podcasts peuvent être vraiment difficiles.

J'ai construit ce projet pour résoudre ce problème ... et je voulais aussi jouer avec des trucs IA cool. ?

Ce projet utilise les derniers modèles d'OpenAI pour construire un index de recherche sémantique dans chaque épisode du pod. Il vous permet de trouver vos moments préférés avec une précision de niveau Google et de revoir les clips exacts qui vous intéressent.

Vous pouvez l'utiliser pour alimenter la recherche avancée sur n'importe quelle chaîne ou playlist YouTube . La démo utilise le podcast tout-in parce que c'est mon préféré?, Mais il est conçu pour fonctionner avec n'importe quelle liste de lecture.

Comment commencer

Clone le référentiel de votre machine locale.
Accédez au répertoire racine du référentiel dans votre terminal.
Exécutez l' npm install pour installer toutes les dépendances nécessaires.
Exécutez la commande npx tsx src/bin/resolve-yt-playlist.ts pour télécharger les transcriptions anglaises pour chaque épisode de la liste de lecture cible (dans ce cas, la playlist des épisodes du podcast tout-in).
Exécutez la commande npx tsx src/bin/process-yt-playlist.ts pour prétraiter les transcriptions et récupérer les incorporations d'OpenAI, puis les insérer dans un index de recherche de pinone.
Vous pouvez maintenant exécuter la commande npx tsx src/bin/query.ts pour interroger l'index de recherche de pignon. (Facultatif) Exécutez la commande npx tsx src/bin/generate-thumbnails.ts pour générer des miniatures horodatrices de chaque vidéo de la playlist. Cette étape prend ~ 2 heures et nécessite une connexion Internet stable.
Le frontend du projet est un webapp suivant.JS déployé sur Vercel qui utilise l'index de Pinecone comme magasin de données principal. Vous pouvez exécuter la commande NPM Exécuter Dev pour démarrer le serveur de développement et afficher le WebApp localement.

Notez que quelques épisodes peuvent ne pas avoir des transcriptions d'anglais automatisées disponibles et que le projet utilise une solution de grattage HTML Hacky pour cela, donc une meilleure solution serait d'utiliser Whisper pour transcrire l'audio de l'épisode. En outre, le tri du projet de tri par récence vs pertinence.

Exemples de requêtes

Pull Karen
Meilleur conseil pour les fondateurs
Histoire de poker d'hier soir
Schéma de ponzi de l'escroquerie cryptographique
Pull de luxe Chamath
Phil Helmuth
honnêteté intellectuelle
SBF FTX
coin scientifique

Captures d'écran

Mode d'éclairage de bureau Mode sombre de bureau

Comment ça marche

Sous le capot, il utilise:

OpenAI - Nous utilisons le tout nouveau modèle d'incorporation de texte en peluche-ADA-002, qui capture des informations plus profondes sur le texte dans un espace latent avec 1536 dimensions
- Cela nous permet d'aller au-delà de la recherche de mots clés et de la recherche par des sujets de niveau supérieur.
Pinecone - Recherche de vecteur hébergé qui nous permet d'effectuer efficacement les recherches K-NN sur ces intérêts
Vercel - Hébergement et fonctions API
Next.js - react web framework

Nous utilisons Node.js et l'API YouTube V3 pour récupérer les vidéos de notre liste de lecture cible. Dans ce cas, nous sommes concentrés sur la playlist des épisodes du podcast tout-in, qui contient 108 vidéos au moment de la rédaction.

npx tsx src/bin/resolve-yt-playlist.ts

Nous téléchargeons les transcriptions anglaises pour chaque épisode à l'aide d'une solution de grattage HTML Hacky, car l'API YouTube n'autorise pas l'accès non à l'auteur aux légendes. Notez que quelques épisodes n'ont pas de transcriptions anglaises automatisées disponibles, nous les sautons donc en ce moment. Une meilleure solution serait d'utiliser Whisper pour transcrire l'audio de chaque épisode.

Une fois que nous avons téléchargé tous les transcriptions et métadonnées localement, nous pré-traitons les transcriptions de chaque vidéo, les décomposant en morceaux de taille raisonnable de ~ 100 jetons et récupérez son intégration de texte en termes de texte ADA-002 d'Openai. Il en résulte environ 200 intégres par épisode.

Tous ces intérêts sont ensuite renversés dans un index de recherche de pèce avec une dimensionnalité de 1536. Il y a ~ 17 575 intégres au total dans ~ 108 épisodes du podcast tout-in.

npx tsx src/bin/process-yt-playlist.ts

Une fois notre index de recherche de pignon est configuré, nous pouvons commencer à les interroger via le WebApp ou via l'exemple CLI:

npx tsx src/bin/query.ts

Nous prenons également en charge la génération de vignettes basées sur les horodat de chaque vidéo YouTube dans la playlist. Les vignettes sont générées à l'aide de marionnettiste sans tête et téléchargées sur Google Cloud Storage. Nous post-processus chaque miniature avec LQIP-modern pour générer de belles images d'aperçu d'aperçu.

Si vous souhaitez générer des vignettes (facultatif), exécutez:

npx tsx src/bin/generate-thumbnails.ts

Notez que la génération de vignettes prend ~ 2 heures et nécessite une connexion Internet assez stable.

Le frontend est un webApp Next.js déployé sur Vercel qui utilise notre index de pince comme un magasin de données principal.

FAIRE

Utilisez Whisper pour de meilleures transcriptions
Soutenir le tri par récence vs pertinence

Retour

Vous avez une idée de la façon dont ce WebApp pourrait être amélioré? Vous trouverez une requête de recherche particulièrement amusante?

N'hésitez pas à m'envoyer des commentaires, soit sur GitHub ou Twitter. ?

Crédit

Inspiré par le projet de Riley Tomasek pour rechercher la chaîne YouTube Huberman
Notez que ce projet n'est pas affilié au podcast All-In. Il tire simplement les données de leur canal YouTube et le traite en utilisant l'IA.

Licence

Si vous avez trouvé ce projet intéressant, envisagez de me parrainer ou de me suivre sur Twitter

L'API et les coûts de serveur s'additionnent au fil du temps, donc si vous pouvez l'épargner, le parrainage sur GitHub est grandement apprécié. ?

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-03-11
taille 1.31MB
Provenant de Github

Applications connexes

yt channel downloader

2024-11-11
yt music archive

2024-11-11
YT DOW

2024-11-10
Recherche de mots 800

2024-11-08
azure search python samples

2024-11-05
yt dlp

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout