duckdb embedding search下载duckdb embedding search源代码下载

duckdb embedding search

其他源码

1.0.0

下载

概述

该存储库包含一个Python应用程序，该应用程序利用DuckDB作为存储和检索嵌入向量的后端。 DuckDB的新颖使用允许在大型数据集中进行有效的相似性搜索。在此示例中，我们已经加载了Hacker News的评论，并实施了功能，以找到与给定评论的10个最相似的评论。

关键功能

DuckDB后端：利用DuckDB进行有效的存储和检索嵌入向量。
嵌入向量：使用OpenAI模型生成嵌入向量，以确保高质量的语义理解。
相似性搜索：基于嵌入比较，从大数据集中找到最相似的注释。

入门

先决条件

Python 3.x
DuckdB
OpenAI API键

安装

克隆存储库：

git clone https://github.com/patricktrainer/duckdb-embedding-search.git

导航到存储库目录：
```
 cd duckdb-embedding-search
```
安装所需的软件包：
```
pip install -r requirements.txt
```

用法

要使用该应用程序，请遵循以下步骤：

设置OpenAI API键：确保您在环境变量中拥有OpenAI API键。
加载注释：使用load_comments.py将注释加载到DuckDB数据库中。评论及其相应的嵌入向量将存储在hn_embeddings.db数据库的embeddings表中。
运行相似性搜索：执行主脚本（例如main.py ）并提供黑客新闻评论。该脚本将返回数据库中的10个最相似的注释。

注意- 如果数据库中尚不存在， embedding.py中的get_similarity函数将为提供的注释创建一个新的嵌入向量。这意味着它将击中OpenAI API，这将违反您的API使用。

示例结果

以下示例演示了应用程序的功能。提供评论作为输入，该应用程序返回数据库中的10个最相似的评论。

提供的评论作为输入：

我注意到的一件事是，许多工程师在Github上寻找图书馆时，他们会检查最后一次提交时间。他们认为，最近的提交越最近，图书馆支持得更好。但是，一个存档的项目又能完成您需要做的事情，有0个错误，并且已经稳定了多年？这就像在旧货店里找到一个隐藏的宝石一样！如今我看到的大多数工程师都会自动丢弃并未“不断”更新的库...暗示这是一件好事:)

应用程序返回的最类似评论（简短缩写）：

文字：>共享图书馆的死亡。他们引起的头痛不值得。
完全不同意。即使一个尺寸不适合所有尺寸，任何对静态库进行全面陈述的人只是向世界说明他们如何完全忽略了基本软件维护问题，例如跟踪哪个软件包已更新，特别是那些没有每天保持最新状态的软件包。
相似性：0.8047998201033179
文字：这里有很多好处，但是盈利系统的维护工作似乎是有效的时间。
现在，一些有利可图的系统正在慢慢进行，终身工程师可以继续忙于做例行工作，而无法解决或升级比特罗特。但是我认为擅长确保无聊和稳定的事情保持无聊和稳定的人通常会被低估。
相似性：0.796911347299464

建筑学

模块

connection.py ：处理DuckDB数据库连接。
embedding.py ：py：管理嵌入矢量操作。
operations.py ：包含用于数据处理的实用程序功能。
openai_client.py ：与OpenAI API接口。

DuckDB整合

DuckDB用作轻巧的高性能数据库来存储嵌入向量。 connection.py模块建立了与DuckDB的连接，并且operations.py包含用于插入和检索嵌入的逻辑。

嵌入向量

使用OpenAI的API生成嵌入向量。 openai_client.py模块包含用于与API接口的逻辑。 embedding.py模块包含用于生成嵌入向量并进行比较的逻辑。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-03-05
大小 6.08MB
来自于 Github

duckdb embedding search

概述

关键功能

入门

先决条件

安装

用法

示例结果

建筑学

模块

DuckDB整合

嵌入向量

词搜索 800

azure search python samples

duckdb wasm

单词搜索单词益智游戏最新版本

Word Search for kids游戏最新版

Liehuo! Search 英文搜索

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express