yt semantic search Download - yt semantic search Download do código -fonte

yt semantic search

Outro código-fonte

1.0.0

Baixar

Pesquise o podcast All-In usando ai

Pesquisa semântica do YouTube

Pesquisa semântica de OpenAI por qualquer lista de reprodução do YouTube-com o podcast All-In

Introdução
Como começar
Exemplo de dúvidas
Capturas de tela
Como funciona
PENDÊNCIA
Opinião
Crédito
Licença

Introdução

Eu amo o podcast All-In. Mas a pesquisa e a descoberta com podcasts podem ser realmente desafiadores.

Eu construí este projeto para resolver esse problema ... e também queria brincar com coisas legais de IA. ?

Este projeto usa os modelos mais recentes do OpenAI para criar um índice de pesquisa semântica em todos os episódios do POD. Ele permite que você encontre seus momentos favoritos com precisão no nível do Google e revesse os clipes exatos em que você está interessado.

Você pode usá -lo para alimentar a pesquisa avançada em qualquer canal ou lista de reprodução do YouTube . A demonstração usa o podcast All-In porque é o meu favorito?, Mas foi projetado para funcionar com qualquer lista de reprodução.

Como começar

Clone o repositório da sua máquina local.
Navegue até o diretório raiz do repositório em seu terminal.
Execute o comando npm install para instalar todas as dependências necessárias.
Execute o comando npx tsx src/bin/resolve-yt-playlist.ts para baixar as transcrições em inglês para cada episódio da lista de reprodução de destino (neste caso, a lista de reprodução de episódios de podcast All-in).
Execute o comando npx tsx src/bin/process-yt-playlist.ts para pré-processo as transcrições e buscar incorporações do OpenAI e insira-as em um índice de pesquisa de pinecone.
Agora você pode executar o comando npx tsx src/bin/query.ts para consultar o índice de pesquisa do Pinecone. (Opcional) Execute o comando npx tsx src/bin/generate-thumbnails.ts para gerar miniaturas de registro de data e hora de cada vídeo na lista de reprodução. Esta etapa leva ~ 2 horas e requer uma conexão estável à Internet.
O front -end do projeto é um próximo. Você pode executar o comando npm executar dev para iniciar o servidor de desenvolvimento e visualizar o WebApp localmente.

Observe que alguns episódios podem não ter transcrições automatizadas em inglês disponíveis e que o projeto usa uma solução de raspagem HTML hacky para isso, portanto, uma solução melhor seria usar o Whisper para transcrever o áudio do episódio. Além disso, o suporte de suporte do projeto por Recência versus relevância.

Exemplo de dúvidas

Sweater Karen
Melhor conselho para os fundadores
História de poker da noite passada
Esquema de Criptografia Scam Ponzi
Sweater de luxo Chamath
Phil Helmuth
honestidade intelectual
sbf ftx
CAINHO DE CIÊNCIA

Capturas de tela

Modo de luz da área de trabalho Modo escuro para desktop

Como funciona

Sob o capô, ele usa:

OpenI-estamos usando o novo modelo de incorporação de incorporação de texto-Ada-002, que captura informações mais profundas sobre o texto em um espaço latente com 1536 dimensões
- Isso nos permite ir além da pesquisa e pesquisa de palavras-chave por tópicos de nível superior.
Pinecone - Pesquisa de vetor hospedada que nos permite executar pesquisas com eficiente de K -NN nessas incorporações
Vercel - Funções de hospedagem e API
Next.JS - React Web Framework

Usamos o Node.js e a API V3 do YouTube para buscar os vídeos da nossa lista de reprodução de destino. Nesse caso, estamos focados na lista de reprodução de episódios de podcast All-in, que contém 108 vídeos no momento da redação.

npx tsx src/bin/resolve-yt-playlist.ts

Fazemos o download das transcrições em inglês para cada episódio usando uma solução de raspagem HTML Hacky, pois a API do YouTube não permite acesso a não OAuth às legendas. Observe que alguns episódios não têm transcrições automatizadas em inglês disponíveis, então estamos apenas pulando -os no momento. Uma solução melhor seria usar o Whisper para transcrever o áudio de cada episódio.

Depois que todas as transcrições e metadados baixados localmente, pré-processamos as transcrições de cada vídeo, dividindo-as em pedaços de tamanho razoavelmente de ~ 100 tokens e buscando sua incorporação de texto-Ada-002 do OpenAi. Isso resulta em ~ 200 incorporações por episódio.

Todas essas incorporações são posteriores a um índice de pesquisa de Pinecone com uma dimensionalidade de 1536. Existem ~ 17.575 incorporações no total em ~ 108 episódios do podcast All-In.

npx tsx src/bin/process-yt-playlist.ts

Depois que nosso Índice de Pesquisa Pinecone estiver configurado, podemos começar a consultá -lo através do WebApp ou através do exemplo da CLI:

npx tsx src/bin/query.ts

Também apoiamos a geração de miniaturas baseadas em registro de data e hora de todos os vídeos do YouTube na lista de reprodução. As miniaturas são geradas usando marionetas sem cabeça e são carregadas no Google Cloud Storage. Também pós-processo de cada miniatura com o LQIP-Modern para gerar imagens de espaço reservado para visualização agradável.

Se você deseja gerar miniaturas (opcional), execute:

npx tsx src/bin/generate-thumbnails.ts

Observe que a geração de miniaturas leva ~ 2 horas e requer uma conexão de internet bastante estável.

O Frontend é um Afffort.js WebApp implantado no VERCEL que usa nosso índice Pinecone como um armazenamento de dados primário.

PENDÊNCIA

Use Whisper para melhores transcrições
Suporte classificação por recência versus relevância

Opinião

Tem uma idéia de como esse webApp poderia ser melhorado? Encontrar uma consulta de pesquisa particularmente divertida?

Sinta -se à vontade para me enviar feedback, no Github ou no Twitter. ?

Crédito

Inspirado no projeto de Riley Tomasek para pesquisar no canal Huberman Youtube
Observe que este projeto não é afiliado ao podcast All-In. Ele apenas extrai dados do canal do YouTube e o processa usando a IA.

Licença

Se você achou este projeto interessante, considere me patrocinar ou me seguir no Twitter

Os custos da API e do servidor aumentam com o tempo; portanto, se você pode poupar, patrocinar no Github será muito apreciado. ?

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-11
tamanho 1.31MB
Vindo de Github

Aplicativos Relacionados

yt channel downloader

2024-11-11
yt music archive

2024-11-11
YT DOW

2024-11-10
Pesquisa de palavras 800

2024-11-08
azure search python samples

2024-11-05
yt dlp

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos