Descargar IndexerMcIndexFace - Descargar el código fuente de IndexerMcIndexFace

Español

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Inicio>Relacionado con la programación>Otro código fuente

IndexerMcIndexFace

Otro código fuente

1.0.0

Descargar

Un sistema de indexación y recuperación de documentos de bajo nivel (juguete)

IndexermCindexface es un pequeño sistema tradicional de indexación y recuperación de documentos que escribí como una excusa para jugar con FSTS (usando la caja BurntSushi/fst ) y las capacidades de paralelización de Rust (usando también la caja crossbeam para pasar el mensaje)

Características:

Totalmente escrito en óxido
Utiliza FST para acceso rápido a publicaciones
Permite documentos de campo y usa el modelo de recuperación BM25F (nota: no verifiqué su corrección)
La etapa de indexación está paralelizada con un hilo creando y fusionando índices independientes
- (Tenga en cuenta que esta es una implementación ingenua, y aunque es extremadamente rápido, puede ser muy hambriento de la memoria)
La etapa de recuperación está paralelo con un threadpool, donde en este caso ejecuta una búsqueda diferente para cada token

Advertencias:

Este es un proyecto de juguete (por ejemplo: los archivos de índice no están comprimidos, las técnicas de paralelización son ingenuas y hambrientas de recursos ...) y la API es muy básica.

Uso:

Simplemente ejecute cargo run --release . main.rs creará una colección ficticia de 1000 archivos utilizando la caja MitchellRhysHall/random_word , y luego indexará y realizará una consulta aleatorizada de tamaño moderado.

Posibles mejoras:

El uso de FST abre muchas posibilidades, ya que las búsquedas similares a regex se pueden realizar fácilmente.
Mejores técnicas de paralelización: en este momento, cada hilo creará su propio índice en memoria, que luego se unirá y escribirá en archivos binarios. Esto significa que el uso de la memoria puede ser muy alto para colecciones más grandes de documentos.
Mejores tokenizadores.
N-gram o índices similares, más elaborados.
Modelos de recuperación alternativos, consultas de frases, etc.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-27
tamaño 27.78KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo