Descarga search engine example text embeddings - Ejemplo search engine example text embeddings Código fuente Descargar Descargar

search engine example text embeddings

Otro código fuente

1.0.0

Descargar

Acerca de

Este proyecto se ha creado para demostrar cómo podemos construir motores de búsqueda modernos utilizando una estructura directa de incrustaciones de texto (transformadores de superficie de abrazos) y una base de datos vectorial.

Como base para los datos de búsqueda, utilicé los últimos seis meses de datos del sitio web de CommonCrawl, pero debido a que tomó casi dos semanas en mi computadora portátil (M1 Max) para vectorizar ~ 1 mln dominios, supongo que cualquiera que use este repositorio no intentaría vectorizar el conjunto de datos completo?

Lo que necesitarás

Para ejecutar este proyecto localmente, ¡ necesitará!

Node.js / npm - para data-worker y webapp (next.js)
Docker, Docker Compose - para ejecutar bases de datos MongoDB y Qdrant
Rust + Cargo: para compilar y ejecutar Huggingface Text -Embeddings

Este proyecto no fue optimizado para la producción, por lo que no existe una implementación de implementación de producción de "un comando". Este será un ejemplo de cómo crear una búsqueda de su sitio web para hacer que los resultados sean más como Google (algo de ...)

Interfaz de incrustaciones de texto de Huggingface

Encontrará más información sobre el uso de la interfaz de incrustaciones de texto Huggingface en su página oficial de GitHub. Aún así, para el contexto de este repositorio, he estado interesado en compilarlo para el MacOS M1 y usarlo con la GPU M1 Max Metal, que está disponible solo a través de la compilación directa. Puede usar los contenedores Docker de procesadores basados en Intel, que están prebuilados y disponibles para las GPU NVIDIA.

Los comandos a continuación clonarán la interfaz de incrustaciones de texto y los construirán para que el controlador de metal macOS use GPU del procesador M1.

git clone https://github.com/huggingface/text-embeddings-inference.git
cd text-embeddings-inference
cargo install --path router -F candle -F metal

Puede tomar unos minutos y el 100% de su CPU, así que toma un café mientras tanto ☕️

Trabajador de datos de CommonCrawl

El directorio data-worker contiene un simple nodo.js scripts, que están diseñados para descargar el marco de tiempo de datos de CommonCrawl especificado y comenzar a vectorizar el contenido de texto de HTML rastreo y guardar resultados como vectorios de la base de datos Qdrant y MongoDB para una referencia de búsqueda posterior.

Es importante tener en cuenta que la cantidad de datos es enorme para una "ejecución local", así que no intente esperar hasta que se completara la vectorización, llevará meses seguidos completar esto si incluso se ajustará a su computadora portátil. Después de 2 semanas de ejecución, me di por vencido, porque tomó casi 300 GB de almacenamiento y solo tuve el 4% de esos 6 meses de conjunto de datos CommonCrawl.

Aplicación web

La webapp en sí es muy simple Next.js App con un CSS de viento de cola y algunos archivos personalizados dentro del directorio webapp/src/utils , donde tengo la funcionalidad de conectarme a MongoDB, bases de datos de Qdrant y también solicita la interfaz de integración de texto para vectorizar el texto de búsqueda antes de realizar una solicitud de búsqueda real.

Ejecutando localmente

Esos comandos a continuación son los pasos para ejecutar este proyecto localmente y comenzar a vectorizar y buscar el conjunto de datos CommonCrawl.

NUEVO TERMINAL: Ejecute la interfaz de incrustaciones de texto utilizando el modelo BAAI/bge-large-en-v1.5 MTEB para la vectorización

 cd text-embeddings-inference
text-embeddings-router --model-id BAAI/bge-large-en-v1.5 --max-client-batch-size 5000 --port 8888

2. Nuevo terminal: Clone este repositorio y ejecute los servicios de composición de Docker para MongoDB y Qdrant

git clone [email protected]:tigranbs/search-engine-example-text-embeddings.git
cd search-engine-example-text-embeddings
docker compose up -d

3. Nuevo terminal: ejecute Data Worker para comenzar a vectorizar los datos de búsqueda descargando los archivos CommonCrawl y enviándolo a la interfaz de envoltura de texto

 cd search-engine-example-text-embeddings
cd data-worker
npm i
npm start

4 NUEVA TERMINAL: Ejecute WebApp para comenzar a buscar

 cd search-engine-example-text-embeddings
cd webapp
npm i
npm run dev

Después de esos pasos, debería poder navegar al http: // localhost: 3000 y ver la página de búsqueda, que funcionará directamente con el MongoDB y el Qdrant sobre los textos ya sincronizados que ya tendrá.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-26
tamaño 76.06KB
Proviene de Github

Aplicaciones relacionadas

Búsqueda de palabras 800

2024-11-08
wsl actions example

2024-11-04
Texto con Jesús

2023-08-17
Texto o morir

2023-07-03
Motor de búsqueda Hanfox

2012-03-15
Motor de vida de datos

2011-05-16

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo