duckdb embedding searchダウンロードduckdb embedding searchソースコードダウンロード

duckdb embedding search

その他のソースコード

1.0.0

ダウンロード

概要

このリポジトリには、DuckDBをバックエンドとして使用して埋め込みベクターを保存および取得するPythonアプリケーションが含まれています。 DuckDBの新しい使用により、大規模なデータセット間で効率的な類似性検索が可能になります。この例では、Hacker Newsからコメントをロードし、機能を実装して、特定のコメントと最も類似した10のコメントを見つけました。

重要な機能

duckdbバックエンド：duckdbを使用して、効率的なストレージと埋め込みベクターの取得を行います。
埋め込みベクター：埋め込みベクターは、OpenAIのモデルを使用して生成され、高品質のセマンティック理解が確保されます。
類似性検索：埋め込み比較に基づいて、大きなデータセットから最も類似したコメントを見つけます。

はじめる

前提条件

Python 3.x
duckdb
Openai APIキー

インストール

リポジトリをクローンします：

git clone https://github.com/patricktrainer/duckdb-embedding-search.git

リポジトリディレクトリに移動します。
```
 cd duckdb-embedding-search
```
必要なパッケージをインストールします：
```
pip install -r requirements.txt
```

使用法

アプリケーションを使用するには、次の手順に従ってください。

OpenAI APIキーを設定します：環境変数にOpenAI APIキーが設定されていることを確認してください。
コメントを読み込む： load_comments.pyを使用してコメントをduckdbデータベースに読み込みます。コメントとそれらに対応する埋め込みベクトルは、 hn_embeddings.dbデータベースのembeddingsテーブルに保存されます。
類似性検索を実行します。メインスクリプト（ main.pyなど）を実行し、ハッカーニュースコメントを提供します。スクリプトは、データベースから最も類似した10のコメントを返します。

注embedding.pyのget_similarity関数は、データベースにまだ存在していない場合、提供されたコメントの新しい埋め込みベクトルを作成します。これは、Openai APIにヒットすることを意味し、APIの使用にカウントされます。

例の結果

次の例は、アプリケーションの機能を示しています。コメントは入力として提供され、アプリケーションはデータベースから最も類似した10のコメントを返します。

入力として提供されたコメント：

私が気づいたことの1つは、多くのエンジニアがGitHubでライブラリを探しているとき、最後のコミット時間をチェックすることです。彼らは、最近の最後のコミットであるほど、図書館がより良いサポートであると考えています。しかし、必要なことを正確に行うアーカイブプロジェクトはどうですか、バグが0つあり、何年も安定していますか？それは、リサイクルストアで隠された宝石を見つけるようなものです！私が今日見ているほとんどのエンジニアは、「絶えず」更新されていないライブラリを自動的に破棄します...それが良いことだと暗示しています:)

アプリケーションによって返された最も類似したコメント（簡潔にするために略された）：

テキスト：>共有ライブラリへの死。彼らが引き起こす頭痛は、利益の価値がありません。
完全に同意しない。 1つのサイズがすべてに適合しているわけではありませんが、静的ライブラリについて抜本的なステートメントを作成した人は誰でも、ソフトウェアパッケージが更新されるなど、特に最新の状態に維持されていない人の追跡など、基本的なソフトウェアメンテナンスの問題に関して完全に忘れていることを世界に述べています。
類似性：0.8047998201033179
テキスト：ここでは多くの良い点がありますが、収益性の高いシステムのメンテナンス作業は、時間の有効な使用のようです。
現在、一部の収益性の高いシステムはゆっくりとビットロットであり、終身在庫のエンジニアはビットロットに対処したりエスカレートしたりしない間、日常的な仕事をするのに忙しくし続けることができます。しかし、退屈で安定したものを退屈で安定させていることを確認するのが得意な人は、通常過小評価されていると思います。
類似性：0.796911347299464

建築

モジュール

connection.pyデータベース接続を処理します。
embedding.py ：ベクトル操作の埋め込みを管理します。
operations.py ：データ処理のユーティリティ関数が含まれています。
openai_client.py APIとのインターフェース。

duckdb統合

DuckDBは、埋め込みベクターを保存するための軽量の高性能データベースとして使用されます。 connection.pyモジュールはDuckDBへの接続を確立し、 operations.pyは埋め込みを挿入および取得するためのロジックが含まれています。

ベクターの埋め込み

埋め込みベクターは、OpenAIのAPIを使用して生成されます。 openai_client.pyモジュールには、APIとのインターフェースのロジックが含まれています。 embedding.pyモジュールには、埋め込みベクターを生成して比較するためのロジックが含まれています。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-03-05
サイズ 6.08MB
から Github

duckdb embedding search

概要

重要な機能

はじめる

前提条件

インストール

使用法

例の結果

建築

モジュール

duckdb統合

ベクターの埋め込み

単語検索 800

azure search python samples

duckdb wasm

Word Search Word Puzzle Game最新版

子供向けゲームの Word Search 最新バージョン

リエフオ! 検索英語検索

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express