Descarga yt semantic search - Descargar el código fuente yt semantic search

yt semantic search

Otro código fuente

1.0.0

Descargar

Busque en el podcast All-In utilizando AI

Búsqueda semántica de youtube

Búsqueda semántica con energía Openai para cualquier lista de reproducción de YouTube: con el podcast All-in

Introducción
Cómo empezar
Consultas de ejemplo
Capturas de pantalla
Cómo funciona
HACER
Comentario
Crédito
Licencia

Introducción

Me encanta el podcast All-In. Pero la búsqueda y el descubrimiento con los podcasts pueden ser realmente desafiantes.

Construí este proyecto para resolver este problema ... y también quería jugar con cosas geniales de IA. ?

Este proyecto utiliza los últimos modelos de OpenAI para construir un índice de búsqueda semántica en cada episodio de la cápsula. Le permite encontrar sus momentos favoritos con precisión a nivel de Google y volver a ver los clips exactos que le interesa.

Puede usarlo para alimentar la búsqueda avanzada en cualquier canal o lista de reproducción de YouTube . La demostración usa el podcast All-In porque es mi favorito?, Pero está diseñado para funcionar con cualquier lista de reproducción.

Cómo empezar

Clonar el repositorio de su máquina local.
Navegue al directorio raíz del repositorio en su terminal.
Ejecute el comando npm install para instalar todas las dependencias necesarias.
Ejecute el comando npx tsx src/bin/resolve-yt-playlist.ts para descargar las transcripciones en inglés para cada episodio de la lista de reproducción de destino (en este caso, la lista de reproducción de episodios de podcast All-in).
Ejecute el comando npx tsx src/bin/process-yt-playlist.ts para preprocesar las transcripciones y obtener incrustaciones de OpenAI, luego inserte en un índice de búsqueda de Pinecone.
Ahora puede ejecutar el comando npx tsx src/bin/query.ts para consultar el índice de búsqueda de pinecone. (Opcional) Ejecute el comando npx tsx src/bin/generate-thumbnails.ts para generar miniaturas de tiempo de tiempo de cada video en la lista de reproducción. Este paso toma ~ 2 horas y requiere una conexión a Internet estable.
El frontend del proyecto es una aplicación web Next.js implementada en VERCEL que usa el índice Pinecone como un almacén de datos primario. Puede ejecutar el comando npm ejecutar dev para iniciar el servidor de desarrollo y ver la webapp localmente.

Tenga en cuenta que algunos episodios pueden no tener transcripciones automatizadas en inglés disponibles, y que el proyecto utiliza una solución de raspado HTML hacky para esto, por lo que una mejor solución sería usar Whisper para transcribir el audio del episodio. Además, la clasificación del proyecto de soporte por recencia vs relevancia.

Consultas de ejemplo

suéter karen
El mejor consejo para los fundadores
Historia de póker de anoche
esquema criptográfico de Ponzi
suéter de lujo Chamath
Phil Helmuth
honestidad intelectual
SBF FTX
esquina de ciencias

Capturas de pantalla

Modo de luz de escritorio Modo oscuro de escritorio

Cómo funciona

Debajo del capó, usa:

OPERAI: estamos utilizando el nuevo modelo de incrustación de texto con incrustación de texto-002, que captura información más profunda sobre el texto en un espacio latente con 1536 dimensiones
- Esto nos permite ir más allá de la búsqueda y búsqueda de palabras clave mediante temas de nivel superior.
Pinecone: búsqueda de vectores alojado que nos permite realizar eficientemente las búsquedas de K -NN en estos incrustaciones
VERCEL - Funciones de alojamiento y API
Next.js - React Web Framework

Usamos Node.js y el API V3 de YouTube para obtener los videos de nuestra lista de reproducción de destino. En este caso, estamos enfocados en la lista de reproducción de episodios de podcast All-In, que contiene 108 videos al momento de escribir.

npx tsx src/bin/resolve-yt-playlist.ts

Descargamos las transcripciones en inglés para cada episodio utilizando una solución de raspado HTML Hacky, ya que la API de YouTube no permite el acceso que no es de acuerdo a los subtítulos. Tenga en cuenta que algunos episodios no tienen transcripciones automatizadas en inglés disponibles, por lo que solo las estamos omitiendo en este momento. Una mejor solución sería usar Whisper para transcribir el audio de cada episodio.

Una vez que tenemos todas las transcripciones y metadatos descargados localmente, preprocesamos las transcripciones de cada video, dividiéndolos en trozos de tamaño razonable de ~ 100 tokens y obtenemos su incrustación de texto-ADA-002 de OpenAi. Esto da como resultado ~ 200 incrustaciones por episodio.

Todos estos incrustaciones se elevan en un índice de búsqueda de Pinecone con una dimensionalidad de 1536. Hay ~ 17,575 incrustaciones en total en ~ 108 episodios del podcast All-in.

npx tsx src/bin/process-yt-playlist.ts

Una vez que se configura nuestro índice de búsqueda de pinecone, podemos comenzar a consultarlo a través de la aplicación web o a través del ejemplo de CLI:

npx tsx src/bin/query.ts

También apoyamos la generación de miniaturas basadas en la marca de tiempo de cada video de YouTube en la lista de reproducción. Las miniaturas se generan con titiros sin cabeza y se cargan en Google Cloud Storage. También tenemos el procesamiento posterior a cada miniatura con LQIP-modern para generar buenas imágenes de marcador de posición de vista previa.

Si desea generar miniaturas (opcionales), ejecute:

npx tsx src/bin/generate-thumbnails.ts

Tenga en cuenta que la generación de miniatura toma ~ 2 horas y requiere una conexión a Internet bastante estable.

El frontend es una aplicación web Next.js implementada en VERCEL que usa nuestro índice Pinecone como un almacén de datos primario.

HACER

Use Whisper para mejores transcripciones
Soporte de la clasificación por recencia vs relevancia

Comentario

¿Tiene una idea sobre cómo podría mejorarse esta webp? ¿Encuentra una consulta de búsqueda particularmente divertida?

No dude en enviarme comentarios, ya sea en Github o Twitter. ?

Crédito

Inspirado en el proyecto de Riley Tomasek para buscar en el canal Huberman YouTube
Tenga en cuenta que este proyecto no está afiliado al podcast All-in. Simplemente extrae datos de su canal de YouTube y los procesa usando AI.

Licencia

Si le pareció interesante este proyecto, considere patrocinarme o seguirme en Twitter

La API y los costos del servidor se suman con el tiempo, por lo que si puede ahorrarlo, es muy apreciado patrocinar en GitHub. ?

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-11
tamaño 1.31MB
Proviene de Github

Aplicaciones relacionadas

yt channel downloader

2024-11-11
yt music archive

2024-11-11
YT DOW

2024-11-10
Búsqueda de palabras 800

2024-11-08
azure search python samples

2024-11-05
yt dlp

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo