IndexerMcIndexFace Download - IndexerMcIndexFace Code Source Download

Français

中文(简体) 中文(繁体) 한국어 日本語 English Português Español Русский العربية Indonesia Deutsch Français ภาษาไทย

Page d'accueil>Lié à la programmation>Autre code source

IndexerMcIndexFace

Autre code source

1.0.0

Télécharger

Un (jouet) un système d'indexation de documents de bas niveau et de récupération

INDEXERMCINDEXFACE est un minuscule système d'indexation et de récupération de documents traditionnels que j'ai écrit comme excuse pour jouer avec les FST (en utilisant la caisse BurntSushi/fst ) et les capacités de parallélisation de Rust (en utilisant également la caisse crossbeam pour le passage du message)

Caractéristiques:

Entièrement écrit en rouille
Utilise des FST pour un accès rapide aux publications
Permet des documents alignés et utilise le modèle de récupération BM25F (Remarque: Je n'ai pas vérifié son exactitude)
L'étape d'indexation est paralellisée avec un threadpool en créant et en fusionnant des index indépendants
- (Notez qu'il s'agit d'une implémentation naïve, et bien qu'elle soit extrêmement rapide, elle peut avoir vraiment faim de mémoire)
L'étape de récupération est parallélisée avec un threadpool, où dans ce cas, il lance une recherche différente pour chaque jeton

Avertissements:

Il s'agit d'un projet de jouets (par exemple: les fichiers d'index ne sont pas compressés, les techniques de parallélisation sont naïves et gênantes en ressources ...) et l'API est très basique.

Usage:

Exécutez simplement cargo run --release . main.rs créera une collection factice de 1000 fichiers à l'aide de la caisse MitchellRhysHall/random_word , puis indexera et effectuera une requête randomisée de taille modéré.

Améliorations possibles:

L'utilisation de FSTS ouvre de nombreuses possibilités, car les recherches de type regex peuvent être facilement effectuées.
De meilleures techniques de parallélisation: À l'heure actuelle, chaque thread créera son propre index en mémoire, qui sera ensuite rejoint et écrit sur des fichiers binaires. Cela signifie que l'utilisation de la mémoire peut être très élevée pour de plus grandes collections de documents.
Mieux tokenisers.
N-gram ou des index similaires, plus élaborés.
Modèles de récupération alternatifs, requêtes de phrase, etc.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-27
taille 27.78KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout