search engine example text embeddings search engine example text embeddings

search engine example text embeddings

Outro código-fonte

1.0.0

Baixar

Sobre

Este projeto foi criado para demonstrar como podemos criar mecanismos de pesquisa modernos usando uma estrutura direta de incorporação de texto (Transformers Huggingface) e um banco de dados vetorial.

Como base para os dados de pesquisa, usei os últimos seis meses de dados do site da CommonCrawl, mas como levou quase duas semanas no meu laptop (M1 max) para vetorizar os domínios ~ 1mln, presumo que qualquer pessoa que use esse repositório não tentasse vetorizar todo o conjunto de dados? ‍♂️

O que você precisará

Para executar este projeto localmente, você precisará!

Node.js / npm - para data-worker e webapp (next.js)
Docker, Docker Compose - para executar bancos de dados MongoDB e QDRANT
Rust + Cargo - Para compilar e executar o Huggingface Text -Embeddings

Este projeto não foi otimizado para a produção, portanto, não existe uma implementação de implantação de produção de "One Command". Este será um exemplo de como criar uma pesquisa para o seu site para tornar os resultados mais parecidos com o Google (tipo de ...)

Interface de incorporação de texto huggingface

Você encontrará mais informações sobre o uso da interface de incorporação de texto Huggingface na página oficial do Github. Ainda assim, para o contexto deste repositório, estou interessado em compilá -lo para o MacOS M1 e usá -lo com a GPU M1 Max Metal, que está disponível apenas por compilação direta. Você pode usar os contêineres do docker dos processadores baseados em Intel, que são pré-construídos e disponíveis para as GPUs da NVIDIA.

Os comandos abaixo clonarão a interface de incorporação de texto e os criarão para o driver de metal macOS usar GPUs do processador M1.

git clone https://github.com/huggingface/text-embeddings-inference.git
cd text-embeddings-inference
cargo install --path router -F candle -F metal

Pode levar alguns minutos e 100% da sua CPU, então pegue um café entretanto ☕️

CommonCrawl Data Worker

O diretório de data-worker contém scripts simples do Node.js, projetados para baixar o tempo de dados do CommonCrawl especificado e iniciar a vetorização do conteúdo de texto do HTML rastejado e salvando resultados como um vetorial para o banco de dados e o MongoDB para referência de pesquisa posterior.

É importante observar que a quantidade de dados é enorme para uma "corrida local"; portanto, não tente esperar até que a vetorização seja concluída, levará meses seguidos para concluir isso se ele se encaixar no seu laptop. Após 2 semanas de execução, acabei de desistir, porque levou quase 300 GB de armazenamento e eu tinha apenas 4% nos 6 meses de conjunto de dados CommonCrawl.

WebApp

O aplicativo webapp em si é muito simples, com um CSS de Tailwind CSS e alguns arquivos personalizados dentro do diretório webapp/src/utils , onde tenho a funcionalidade de conectar -se ao MongoDB, bancos de dados de QDRANT e também solicita a interface do texto para o texto para realizar uma solicitação de pesquisa real.

Executando localmente

Esses comandos abaixo são as etapas para executar este projeto localmente e iniciar a vetorização e a pesquisa do conjunto de dados CommonCrawl.

Novo terminal: execute a interface de incorporação de texto usando o modelo BAAI/bge-large-en-v1.5 MTEB para vetorização

 cd text-embeddings-inference
text-embeddings-router --model-id BAAI/bge-large-en-v1.5 --max-client-batch-size 5000 --port 8888

2. Novo Terminal: Clone este repositório e execute o Docker Compose Services para MongoDB e QDRANT

git clone [email protected]:tigranbs/search-engine-example-text-embeddings.git
cd search-engine-example-text-embeddings
docker compose up -d

3. Novo Terminal: Execute os trabalhadores de dados para iniciar a vetorização dos dados de pesquisa baixando os arquivos CommonCrawl e enviando isso para a interface de texto para incorporação

 cd search-engine-example-text-embeddings
cd data-worker
npm i
npm start

4 Novo Terminal: Execute o WebApp para começar a pesquisar

 cd search-engine-example-text-embeddings
cd webapp
npm i
npm run dev

Após essas etapas, você poderá navegar para o http: // localhost: 3000 e ver a página de pesquisa, que funcionará diretamente com o MongoDB e o QDRANT sobre os textos já sincronizados que você já terá.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-26
tamanho 76.06KB
Vindo de Github

Aplicativos Relacionados

Pesquisa de palavras 800

2024-11-08
wsl actions example

2024-11-04
Texto com Jesus

2023-08-17
Texto ou Morra

2023-07-03
Mecanismo de pesquisa Hanfox

2012-03-15
Mecanismo DataLife

2011-05-16

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos