Vector Search with FAISSダウンロードVector Search with FAISSダウンロード

Vector Search with FAISS

その他のソースコード

1.0.0

ダウンロード

埋め込み、FAISS、および製品の量子化を使用したベクトル検索

概要

このプロジェクトは、カスタムインデックスとKmeansの実装を使用した埋め込み、FAISS、および製品の量子化を使用して、講義コンテンツの効率的な類似性検索システムを実装しています。これにより、テキストコンテンツに基づいて同様の講義を見つけることができ、迅速な検索と講義の推奨を可能にします。

特徴

データプリプロシング：ロードおよびプリプロースの講義とクエリデータ（ChatGPTによって生成）。
埋め込み：指定されたモデルを使用して埋め込みを計算して正規化します。
FAISSインデックス：効率的な類似性検索のためにFAISSインデックスを構築および評価します。
パフォーマンス評価：リコールとクエリあたりのクエリを計算します（QPS）メトリック。
量子化：カスタムインデックスを使用して製品量子量化（PQ）を実装して、ストレージ要件を削減します。
視覚化：分析のためのパフォーマンスメトリックをプロットします。

インストール

リポジトリをクローンします

git clone https://github.com/bariscamli/Vector-Search-with-FAISS.git
cd Vector-Search-with-FAISS

仮想環境を作成します（オプションですが推奨）

python -m venv venv
source venv/bin/activate  # On Windows use `venvScriptsactivate`

仮想環境を作成します（オプションですが推奨）
```
pip install -r requirements.txt
```

データの準備

講義データ： LECTURE_FILEがconfig.pyで指定したファイルに講義テキストを配置します。各行には1つの講義が含まれている必要があります。
クエリデータ：config.pyのQUERY_FILEで指定されたファイルにクエリテキストを配置します。各行には1つのクエリが含まれている必要があります。 lectures.txtの例の形式：
```
 Introduction to Machine Learning
Advanced Topics in Deep Learning
Statistical Methods in Data Science
...
```
queries.txtの例の形式：
```
 Basics of Neural Networks
Regression Analysis Techniques
Clustering Algorithms Overview
...
```

構成

すべての構成は、config.pyファイルを介して管理されます。重要なパラメーターは次のとおりです。

 File Paths
- LECTURE_FILE: Path to the lecture data file.
- QUERY_FILE: Path to the query data file.
Embedding Model
- EMBEDDING_MODEL_NAME: Name or path of the embedding model to use.
- BATCH_SIZE: Batch size for computing embeddings.
FAISS Parameters
- FAISS_EFSEARCH_VALUES: List of efSearch values for performance evaluation.
Quantization Parameters
- PQ_M: Number of sub-vector quantizers.
- PQ_NBITS: Number of bits per sub-vector.
- KMEANS_MAX_ITER: Maximum iterations for k-means during PQ training.

使用法

メインスクリプトを実行して、完全なパイプラインを実行します。

python main.py

main.pyを実行するとどうなりますか

データの読み込みと前処理
- 講義とクエリは、指定されたファイルからロードされます。
- テキストデータは前処理されます（たとえば、トークン化、クリーニング）。
埋め込み計算
- 埋め込みモデルは、 EMBEDDING_MODEL_NAMEに従ってロードされます。
- 講義とクエリの埋め込みは計算され、正規化されます。
ベースライン計算
- ベースラインの類似性マトリックスは、DOT製品を使用して計算されます。
- ベースラインは、パフォーマンスの比較に使用されます。
FAISSインデックスの構築と評価
- FAISSインデックスは、講義の埋め込み用に構築されています。
- インデックスは、異なるefSearch値に対して評価されます。
- パフォーマンスメトリック（Recall@1およびQPS）が計算されます。
パフォーマンスの視覚化
- リコールとQPSの間のトレードオフを示すプロットが生成されます。
- プロットはMatplotlibを使用して表示されます。
量子化
- カスタムPQインデックス（ CustomIndexPQ ）が作成されます。
- インデックスがトレーニングされ、講義が追加されます。
検索の例
- PQインデックスを使用して、例の検索が実行されます。
- 結果が記録されており、特定の講義と同様の講義を示しています。

依存関係

Python 3.7以上
必要なPythonパッケージ（compoismess.txtでインストール）：
- numpy
- matplotlib
- faiss （GPUをお持ちの場合は、 pip install faiss-cpuまたはfaiss-gpuをインストールしてください）
- logging
- 埋め込みモデルライブラリ（たとえば、ハグする顔モデルを使用する場合のtransformers ）

ライセンス

このプロジェクトは、MITライセンスの下でライセンスされています。ライセンスを参照してください

詳細については、ファイル。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-05-30
サイズ 431.21KB
から Github

Vector Search with FAISS

埋め込み、FAISS、および製品の量子化を使用したベクトル検索

概要

特徴

目次

インストール

データの準備

構成

使用法

main.pyを実行するとどうなりますか

依存関係

ライセンス

単語検索 800

azure search python samples

ジェスターに閉じ込められた

RPGツクールWITH

私の過去とともに

イエスとのテキストメッセージ

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express