Vector Search with FAISS

Vector Search with FAISS

其他源码

1.0.0

下载

使用嵌入，FAIS和产品量化的矢量搜索

概述

该项目使用嵌入式，faiss和产品量化的嵌入式索引和产品量化实现了有效的相似性搜索系统，并使用自定义索引和Kmeans实现。它使您可以根据文本内容找到类似的讲座，从而快速检索并推荐讲座。

特征

数据预处理：负载和预处理讲座和查询数据（由ChatGPT生成）。
嵌入：使用指定模型计算和归一化嵌入。
FAISS索引：构建和评估FAISS索引以进行有效的相似性搜索。
绩效评估：计算召回和查询每秒（QPS）指标。
量化：用自定义索引实施产品量化（PQ），以减少存储要求。
可视化：分析的情节性能指标。

安装

克隆存储库

git clone https://github.com/bariscamli/Vector-Search-with-FAISS.git
cd Vector-Search-with-FAISS

创建虚拟环境（可选但建议）

python -m venv venv
source venv/bin/activate  # On Windows use `venvScriptsactivate`

创建虚拟环境（可选但建议）
```
pip install -r requirements.txt
```

数据准备

讲座数据：将您的讲座文本置于config.py中的LECTURE_FILE指定的文件中。每行应包含一个讲座。

查询数据：将查询文本放在config.py中的QUERY_FILE指定的文件中。每行应包含一个查询。讲座的示例格式.txt：

 Introduction to Machine Learning
Advanced Topics in Deep Learning
Statistical Methods in Data Science
...

查询的示例格式.txt：

 Basics of Neural Networks
Regression Analysis Techniques
Clustering Algorithms Overview
...

配置

所有配置均通过config.py文件管理。关键参数包括：

 File Paths
- LECTURE_FILE: Path to the lecture data file.
- QUERY_FILE: Path to the query data file.
Embedding Model
- EMBEDDING_MODEL_NAME: Name or path of the embedding model to use.
- BATCH_SIZE: Batch size for computing embeddings.
FAISS Parameters
- FAISS_EFSEARCH_VALUES: List of efSearch values for performance evaluation.
Quantization Parameters
- PQ_M: Number of sub-vector quantizers.
- PQ_NBITS: Number of bits per sub-vector.
- KMEANS_MAX_ITER: Maximum iterations for k-means during PQ training.

用法

运行主脚本以执行完整管道：

python main.py

当您运行main.py时会发生什么

数据加载和预处理
- 讲座和查询是从指定文件加载的。
- 文本数据已预处理（例如，令牌化，清洁）。
嵌入计算
- 根据EMBEDDING_MODEL_NAME加载嵌入模型。
- 计算和标准化讲座和查询的嵌入。
基线计算
- 使用点产品计算基线相似性矩阵。
- 基线用于性能比较。
FAISS索引建设和评估
- 为讲座嵌入而建立了FAISS指数。
- 该索引通过不同的efSearch值评估。
- 计算性能指标（Reque@1和QP）。
性能可视化
- 生成图，显示召回与QP之间的权衡。
- 使用matplotlib显示该图。
量化
- 创建了自定义PQ索引（ CustomIndexPQ ）。
- 该指数是训练的，并添加了讲座。
示例搜索
- 使用PQ索引执行示例搜索。
- 记录结果，显示与给定讲座相似的讲座。

依赖性

Python 3.7或更高
必需的Python软件包（通过sumplions.txt安装）：
- numpy
- matplotlib
- faiss （如果有GPU，则通过pip install faiss-cpu或faiss-gpu ）
- logging
- 嵌入模型库（例如，如果使用拥抱面部模型， transformers ）