Vector Search with FAISS Download - Vector Search with FAISS Code source Télécharger

Vector Search with FAISS

Autre code source

1.0.0

Télécharger

Recherche de vecteur à l'aide d'incorporation, de fais et de quantification du produit

Aperçu

Ce projet met en œuvre un système de recherche de similitude efficace pour le contenu de la conférence à l'aide d'incorporation, de la quantification FAIS et du produit avec les implémentations Index Custom Index & Kmeans. Il vous permet de trouver des conférences similaires basées sur du contenu textuel, permettant une récupération rapide et une recommandation de conférences.

Caractéristiques

Prétraitement des données : Données de charge et de prétraitement des données de conférence et de requête (générées par ChatGpt).
Incorporation : calculer et normaliser les intégres à l'aide d'un modèle spécifié.
Indexation Faish : construire et évaluer un index FAISS pour une recherche de similitude efficace.
Évaluation des performances : Rappel de calcul et requêtes par seconde (QPS) Mesures.
Quantification : implémenter la quantification du produit (PQ) avec un index personnalisé pour réduire les exigences de stockage.
Visualisation : métriques de performance de l'intrigue pour l'analyse.

Table des matières

Installation
Préparation des données
Configuration
Usage
Dépendances
Licence

Installation

Cloner le référentiel

git clone https://github.com/bariscamli/Vector-Search-with-FAISS.git
cd Vector-Search-with-FAISS

Créer un environnement virtuel (facultatif mais recommandé)

python -m venv venv
source venv/bin/activate  # On Windows use `venvScriptsactivate`

Créer un environnement virtuel (facultatif mais recommandé)
```
pip install -r requirements.txt
```

Préparation des données

Données de conférence: placez vos textes de conférence dans un fichier spécifié par LECTURE_FILE dans config.py. Chaque ligne doit contenir une conférence.
Données de requête: placez vos textes de requête dans un fichier spécifié par QUERY_FILE dans config.py. Chaque ligne doit contenir une requête. Exemple de format pour les conférences.txt:
```
 Introduction to Machine Learning
Advanced Topics in Deep Learning
Statistical Methods in Data Science
...
```
Exemple de format pour requêtes.txt:
```
 Basics of Neural Networks
Regression Analysis Techniques
Clustering Algorithms Overview
...
```

Configuration

Toutes les configurations sont gérées via le fichier config.py. Les paramètres clés comprennent:

 File Paths
- LECTURE_FILE: Path to the lecture data file.
- QUERY_FILE: Path to the query data file.
Embedding Model
- EMBEDDING_MODEL_NAME: Name or path of the embedding model to use.
- BATCH_SIZE: Batch size for computing embeddings.
FAISS Parameters
- FAISS_EFSEARCH_VALUES: List of efSearch values for performance evaluation.
Quantization Parameters
- PQ_M: Number of sub-vector quantizers.
- PQ_NBITS: Number of bits per sub-vector.
- KMEANS_MAX_ITER: Maximum iterations for k-means during PQ training.

Usage

Exécutez le script principal pour exécuter le pipeline complet:

python main.py

Que se passe-t-il lorsque vous exécutez Main.py

Chargement des données et prétraitement
- Les conférences et les requêtes sont chargées à partir des fichiers spécifiés.
- Les données de texte sont prétraitées (par exemple, la tokenisation, le nettoyage).
Calcul d'intégration
- Un modèle d'incorporation est chargé selon EMBEDDING_MODEL_NAME .
- Les intérêts pour les conférences et les requêtes sont calculés et normalisés.
Calcul de base
- Une matrice de similitude de base est calculée à l'aide de produits DOT.
- La ligne de base est utilisée pour la comparaison des performances.
Bâtiment et évaluation de l'index Faish
- Un index FAISS est conçu pour les intérêts de conférence.
- L'indice est évalué sur différentes valeurs efSearch .
- Les mesures de performance (rappel @ 1 et QPS) sont calculées.
Visualisation des performances
- Un complot est généré montrant le compromis entre le rappel et les QP.
- Le tracé est affiché à l'aide de Matplotlib.
Quantification
- Un index PQ personnalisé ( CustomIndexPQ ) est créé.
- L'indice est formé et des conférences y sont ajoutées.
Exemple de recherche
- Un exemple de recherche est effectué à l'aide de l'index PQ.
- Les résultats sont enregistrés, montrant des conférences similaires à une conférence donnée.

Dépendances

Python 3,7 ou plus
Packages Python requis (installés via exigences.txt):
- numpy
- matplotlib
- faiss (Installer via pip install faiss-cpu ou faiss-gpu si vous avez un GPU)
- logging
- Bibliothèques de modèles d'intégration (par exemple, transformers si vous utilisez des modèles de visage étreintes)

Licence

Ce projet est autorisé sous la licence du MIT. Voir la licence

fichier pour plus de détails.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-30
taille 431.21KB
Provenant de Github

Applications connexes

Recherche de mots 800

2024-11-08
azure search python samples

2024-11-05
piégé avec Jester

2024-02-23
Créateur de RPG AVEC

2024-02-23
Avec mon passé

2024-02-21
Texte avec Jésus

2023-08-17

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout