Mecanismo de busca de vídeo da IA (AVSE)
Um mecanismo de busca de vídeo alimentado pelas mais recentes ferramentas da IA
Por que?
Com o aumento do conteúdo de formato curto com Tiktok e YouTube. Muito mais conhecimento está em vídeos do que nunca. Encontrar respostas específicas em milhões de vídeos pode ser difícil para qualquer pessoa passar. Portanto, a pergunta é se existe o Google que indexa o texto no site, facilitando a localização com base no contexto da sua pergunta, por que não há nenhum Google que indexa o conteúdo de vídeo, facilitando os usuários para encontrar respostas neles.
Então, eu construí isso para mostrar que é muito possível com a tecnologia e a infraestrutura que estão prontamente disponíveis.
Pilha de tecnologia
- Supbase (PostgreSQL, PG_Vector, Auth)
- Hasura (camada grafql, permissões)
- Fly (hospedagem de Hasura)
- JigSawStack (resumo ai, chat ai)
- Vercel (NextJS Hosting, funções sem servidor)
Como funciona?
Armazenamento de vídeos
- A transcrição de vídeo é extraída do vídeo do YouTube
- As transcrições são fundidas junto com o timestamp baseado em https://huggingface.co/supabase/gte-small Tamanho da dimensão
- Armazenado no Postgres DB com o uso da extensão PG_Vector e indexação
Pesquisando
- Pesquisa de cosseno vetor
- Cada vídeo no resultado realizará uma segunda pesquisa para encontrar pedaços relacionados ao vídeo para a pergunta
- Os pedaços serão mapeados de volta à transcrição do registro de data e hora para reproduzir o clipe Rellavante do vídeo
Resumo e bate -papo
- A transcrição do vídeo será enviada para a API do JigSawStack para resumo em forma de ponto e texto
- As sessões de bate -papo serão criadas e gerenciadas pela API do JigSawStack, pedaços relacionados do vídeo serão enviados para sessão de bate -papo com base em perguntas
Coisas a serem observadas para hospedar você mesmo
- Você precisará de uma conta Supabase & Fly.io paga se estiver planejando indexar milhares a milhões de vídeos
-
admin/config/fly.toml consistem em configurações necessárias para implantar hasura para voar - Resumo
admin/migration Migration que você pode usar para recriar o esquema através do Hasura CLI -
hasura init migration --endpoint <hasuraurl.fly.app> --admin-secret <admin_secret> para atualizar a pasta de migração no admin -
admin/indexChannelVideos.ts script para indexar um grande número de vídeos localmente com canais do YouTube -
.env.example as chaves necessárias para o projeto
Perguntas frequentes
O YouTube não faz isso?
- Na verdade, não, o YouTube não pesquisa o áudio transcrito do vídeo, mas conta com o conteúdo escrito do uploader, como título, descrição, tags. Enquanto todo o conteúdo de áudio não é indexado.
Como essa pilha vai lidar com milhões de vídeos?
- Pode lidar com milhões, mas talvez não bilhões/trilhões com essa configuração atual. Que requer mais réplicas, instâncias e especialmente $
O que vem a seguir?
- Adicione Tiktok como uma fonte de vídeo
- Adicione https://replicate.com/vaibhavs10/incredly-fast-whisper para transcrever áudio
- Melhorar significativamente o desempenho da consulta
- Página para visualizar todos os bate -papos ativos