Vector Search with FAISS

Vector Search with FAISS

기타 소스코드

1.0.0

다운로드

임베딩, FAISS 및 제품 양자화를 사용한 벡터 검색

개요

이 프로젝트는 Custom Index & Kmeans 구현을 통해 임베딩, FAISS 및 제품 정량화를 사용하여 강의 컨텐츠에 대한 효율적인 유사성 검색 시스템을 구현합니다. 이를 통해 텍스트 내용에 따라 유사한 강의를 찾을 수있어 빠른 검색 및 강의 권장 사항이 가능합니다.

특징

데이터 전처리 :로드 및 전처리 강의 및 쿼리 데이터 (ChatGpt에서 생성).
임베딩 : 지정된 모델을 사용하여 임베딩을 계산하고 정상화합니다.
FAISS 인덱싱 : 효율적인 유사성 검색을 위해 FAISS 지수를 빌드 및 평가합니다.
성능 평가 : 초당 리콜 및 쿼리를 계산합니다 (QPS) 메트릭.
양자화 : 스토리지 요구 사항을 줄이기 위해 사용자 정의 지수로 제품 양자화 (PQ)를 구현합니다.
시각화 : 분석을위한 성능 메트릭 플롯.

설치

저장소를 복제하십시오

git clone https://github.com/bariscamli/Vector-Search-with-FAISS.git
cd Vector-Search-with-FAISS

가상 환경 생성 (선택 사항이지만 권장)

python -m venv venv
source venv/bin/activate  # On Windows use `venvScriptsactivate`

가상 환경 생성 (선택 사항이지만 권장)
```
pip install -r requirements.txt
```

데이터 준비

강의 데이터 : config.py에서 LECTURE_FILE 이 지정한 파일에 강의 텍스트를 배치하십시오. 각 라인에는 하나의 강의가 포함되어야합니다.
쿼리 데이터 : config.py에서 QUERY_FILE 에 의해 지정된 파일에 쿼리 텍스트를 배치합니다. 각 라인에는 하나의 쿼리가 포함되어야합니다. 강의 형식 .txt :
```
 Introduction to Machine Learning
Advanced Topics in Deep Learning
Statistical Methods in Data Science
...
```
queries.txt의 예제 형식 :
```
 Basics of Neural Networks
Regression Analysis Techniques
Clustering Algorithms Overview
...
```

구성

모든 구성은 config.py 파일을 통해 관리됩니다. 주요 매개 변수는 다음과 같습니다.

 File Paths
- LECTURE_FILE: Path to the lecture data file.
- QUERY_FILE: Path to the query data file.
Embedding Model
- EMBEDDING_MODEL_NAME: Name or path of the embedding model to use.
- BATCH_SIZE: Batch size for computing embeddings.
FAISS Parameters
- FAISS_EFSEARCH_VALUES: List of efSearch values for performance evaluation.
Quantization Parameters
- PQ_M: Number of sub-vector quantizers.
- PQ_NBITS: Number of bits per sub-vector.
- KMEANS_MAX_ITER: Maximum iterations for k-means during PQ training.

용법

전체 파이프 라인을 실행하려면 기본 스크립트를 실행하십시오.

python main.py

main.py를 실행하면 어떻게됩니까?

데이터로드 및 전처리
- 지정된 파일에서 강의 및 쿼리가로드됩니다.
- 텍스트 데이터는 전처리됩니다 (예 : 토큰 화, 청소).
임베딩 계산
- 임베딩 모델은 EMBEDDING_MODEL_NAME 에 따라로드됩니다.
- 강의 및 쿼리에 대한 임베딩은 계산 및 정규화됩니다.
기준 계산
- 기준 유사성 매트릭스는 DOT 제품을 사용하여 계산됩니다.
- 기준선은 성능 비교에 사용됩니다.
FAISS 지수 구축 및 평가
- FAISS 지수는 강의 임베드를 위해 구축되었습니다.
- 인덱스는 다른 efSearch 값에 대해 평가됩니다.
- 성능 메트릭 (Recall@1 및 QPS)이 계산됩니다.
성능 시각화
- 리콜과 QPS 사이의 상충 관계를 보여주는 플롯이 생성됩니다.
- 플롯은 matplotlib를 사용하여 표시됩니다.
양자화
- 사용자 정의 PQ 인덱스 ( CustomIndexPQ )가 작성됩니다.
- 지수는 훈련되고 강의가 추가됩니다.
예제 검색
- PQ 인덱스를 사용하여 예제 검색이 수행됩니다.
- 주어진 강의와 유사한 강의를 보여주는 결과가 기록됩니다.

의존성

파이썬 3.7 이상
필수 파이썬 패키지 (요구 사항을 통해 설치) :
- numpy
- matplotlib
- faiss (GPU가있는 경우 pip install faiss-cpu 또는 faiss-gpu 를 통해 설치)
- logging
- 모델 라이브러리 임베딩 (예 : Hugging Face 모델을 사용하는 경우 transformers )