knn search algorithm comparisonダウンロード-KNN knn search algorithm comparisonソースコードのダウンロード

knn search algorithm comparison

その他のソースコード

1.0.0

ダウンロード

KNN検索アルゴリズムの比較

1951年に導入されたK-Nearest Neighbors（K-NN）アルゴリズムは、分類タスクと回帰タスクの両方に広く使用されています。コアコンセプトには、データセット内の特定のクエリポイントに最も類似したインスタンス（近隣）を識別し、これらのネイバーを使用して予測または分類を行うことが含まれます。近年、特にテキストおよびその他のデータの広範なデータセットを処理する際に大規模な言語モデル（LLM）をサポートする情報を取得するために、ベクトルデータベースとベクトルインデックスの重要性が高まっています。このアプリケーションの顕著な例は、検索された生成（RAG）です。

このプロジェクトでは、さまざまなデータセットサイズと寸法にわたるさまざまなK-NN検索アルゴリズムのパフォーマンスを比較します。比較されたアルゴリズムは次のとおりです。

KD-Tree
ボールツリー
ブルートフォース（フルknn）
HNSW（階層的航行可能な小さな世界）

アルゴリズムの説明

KD-Tree（K次元ツリー）：
- K次元空間でポイントを編成するためのスペースパーティションデータ構造。
- 異なる寸法に沿って空間を再帰的に分割することにより、バイナリツリーを構築します。
- 低次元空間の場合（通常は20寸法<20の寸法）。
- 検索の平均時間の複雑さ：O（log n）、ここで、nはポイント数です。
- 「次元の呪い」により、高次元空間ではあまり効果的ではありません。例：2Dスペースでは、KDツリーが平面を垂直に分割し、水平方向に各レベルで交互に分割する場合があります。
```
   y
   |
4  |    C
   |  A   D
2  |    B
   |___________
   0    2    4  x
```
ポイント：a（1,3）、b（3,1）、c（4,3）、d（3,3）ツリー構造：root（x = 2） - >左（y = 2） - >右（x = 3）
ボールツリー：
- 分割されたバイナリツリーデータ構造は、ネストされたハイパーフィアを指します。
- 各ノードは、ポイントのサブセットを含むボール（hypersphere）を表します。
- 高次元空間のKDツリーよりも効果的です。
- 検索の平均時間の複雑さ：o（log n）ですが、KDツリーよりも高い定数因子があります。
- 通常、寸法が> 20の場合はKDツリーよりも優れています。例：2Dスペースでは、ボールツリーがネストされた円を作成する可能性があります。
```
   y
   |
4  |    (C)
   |  (A)  (D)
2  |    (B)
   |___________
   0    2    4  x
```
外側の円にはすべてのポイントが含まれ、内側円はサブセットを分割します。
完全なKNN（ブルートフォース）：
- クエリポイントからデータセット内の他のすべてのポイントまでの距離を計算します。
- 実装は簡単ですが、大規模なデータセットでは計算上の高価です。
- 時間の複雑さ：o（n * d）、nはポイントの数、dは寸法の数です。
- データセットのサイズまたは次元が増加するにつれて非効率になります。
- 正確な最近の隣人を見つけることが保証されています。例：クエリポイントq（2,2）およびk = 2の場合：
```
   y
   |
4  |    C
   |  A   D
2  |----Q--B
   |___________
   0    2    4  x
```
距離の計算：QA = 1.41、QB = 1、QC = 2.24、QD = 1.41結果：最寄りの2つの隣人はBとA（またはD）です
HNSW（階層航行可能な小さな世界）：
- おおよその最近傍検索アルゴリズム。
- 効率的なナビゲーションのために多層グラフ構造を構築します。
- 検索速度と精度の間のトレードオフを提供します。
- 高次元のスペースと大きなデータセットでうまく機能します。
- 検索の平均時間の複雑さ：O（log n）ですが、ツリーベースの方法よりも優れた定数を使用します。
- ある程度の精度を犠牲にすることにより、より速い検索を可能にします。例：HNSWレイヤーの単純化された2D表現：
```
 Layer 2:   A --- C
           |
Layer 1:   A --- B --- C
           |    |    |
Layer 0:   A --- B --- C --- D --- E
```
検索は、上層のランダムなポイントで始まり、下降し、底に到達するまで各レベルの隣人を探索します。

これらのアルゴリズムの選択は、データセットのサイズ、寸法、必要な精度、クエリ速度に依存します。 KD-Treeとボールツリーは正確な結果を提供し、低から中程度の寸法に効率的です。完全なKNNは単純ですが、大きなデータセットでは遅くなります。 HNSWは、特に高次元データまたは大規模なデータセットの場合、速度と精度のバランスが良いです。

インストール

このリポジトリをクローンします：

 git clone https://github.com/yourusername/knn-search-comparison.git
cd knn-search-comparison

仮想環境を作成します（オプションですが推奨）：

 python -m venv venv
source venv/bin/activate  # On Windows, use `venvScriptsactivate`

必要な依存関係をインストールします。
```
 pip install -r requirements.txt
```
これにより、numpy、scipy、scikit-learn、hnswlib、tabulate、tqdmなど、 requirements.txtファイルにリストされている必要なすべてのパッケージがインストールされます。

使用法

デフォルトのパラメーターで比較テストを実行するには：

 python app.py

コマンドライン引数を使用して、テストパラメーターをカスタマイズすることもできます。

 python app.py --vectors 1000 10000 100000 --dimensions 4 16 256 --num-tests 5 --k 5

利用可能な議論：

--vectors ：テストするベクトルカウントのリスト（デフォルト：1000、2000、5000、10000、20000、50000、100000、200000）
--dimensions ：テストする寸法のリスト（デフォルト：4 16 256 1024）
--num-tests ：各組み合わせに対して実行するテストの数（デフォルト：10）
--k ：検索する最寄りの隣人の数（デフォルト：10）

スクリプトには、実行中に進行状況バーが表示され、残りの時間の推定値が表示されます。

スクリプトは、Ctrl+cを押すことでいつでも中断することができます。 HNSWインデックスの構築などの時間のかかる操作中であっても、優雅に終了しようとします。

出力

スクリプトは進行状況を表示し、コンソールに結果をもたらします。完了後、ご覧のとおりです。

ベクトル数と寸法の各組み合わせの結果の概要：
- KD-Tree、ボールツリー、およびHNSWインデックスのビルド時間
- 各アルゴリズムの平均検索時間
すべての結果の表
詳細な結果を含むCSVファイルの場所

単一の組み合わせの出力の例：

 Results for 10000 vectors with 256 dimensions:
KD-Tree build time:       0.123456 seconds
Ball Tree build time:     0.234567 seconds
HNSW build time:          0.345678 seconds
KD-Tree search time:      0.001234 seconds
Ball Tree search time:    0.002345 seconds
Brute Force search time:  0.012345 seconds
HNSW search time:         0.000123 seconds

最終結果テーブルとCSVファイルには、各アルゴリズムのビルド時間と検索時間の両方が含まれているため、さまざまなベクトル数と寸法にわたるパフォーマンスの包括的な比較が可能になります。

カスタマイズ

app.pyの次の変数を変更して、テストパラメーターを調整できます。

NUM_VECTORS_LIST ：テストするベクトルカウントのリスト
NUM_DIMENSIONS_LIST ：テストする寸法のリスト
NUM_TESTS ：各組み合わせに対して実行するテストの数
K ：検索する最寄りの隣人の数

貢献

貢献は大歓迎です！プルリクエストをお気軽に送信してください。

ライセンス

このプロジェクトはオープンソースであり、MITライセンスの下で利用可能です。

KNN検索結果チャート

以下は、KNN検索結果を示すチャートです。

KNN検索結果チャート

詳細な結果を含むCSVファイルはこちらから入手できます。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-05-28
サイズ 783.25KB
から Github

knn search algorithm comparison

KNN検索アルゴリズムの比較

アルゴリズムの説明

インストール

使用法

出力

カスタマイズ

貢献

ライセンス

KNN検索結果チャート

単語検索 800

azure search python samples

Word Search Word Puzzle Game最新版

Word Beach 単語検索ゲーム中国語モバイル版

子供向けゲームの Word Search 最新バージョン

リエフオ! 検索英語検索

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express