embeddingcache下载 - embeddingcache源代码下载

embeddingcache

其他源码

1.0.0

下载

嵌入曲线

检索文本嵌入，但是如果我们已经计算出它们，请在本地缓存它们。

动机

如果您正在执行少数不同的NLP任务，或者使用单个NLP管道进行调整，则可能不想重新计算嵌入。因此，我们缓存他们。

Quickstart

 pip install embeddingcache

 from embeddingcache.embeddingcache import get_embeddings
embeddings = get_embeddings(
            strs=["hi", "I love Berlin."],
            embedding_model="all-MiniLM-L6-v2",
            db_directory=Path("dbs/"),
            verbose=True,
        )

设计假设

我们使用sqlite3来缓存嵌入。 [因为我们使用sqlalchemy，因此可以轻松适应。]

我们假设有一位并发作家的读数负载。（但是，我们重试写失败。）

我们将sqlite3插入两个数据库中：hashstring.db：hashstring表。每一行都是（唯一的，主键）SHA512哈希（也是唯一）。两个字段均为索引。

[embedding_model_name] .db：嵌入式表。每一行都是（唯一的，主键）SHA512哈希到1 dim numpy（float32）向量，我们像字节一样序列到表。

开发人员说明

 pre-commit install
pip install -e .
pytest

托多

更新pyproject.toml
添加测试
考虑其他哈希功能？
Float32和Float64支持
考虑添加可选的琼布bib以缓存？
不同的计算嵌入方式（例如，使用API）而不是本地
S3备份和/或
沃尔
Litestream
重试写错误
其他DB后端
最佳实践：提供特定的OpenAI版本号。
rocksdb / rocksdb-cloud？
将模型名称包括在DB中以进行理智检查Slugify。
验证Numpy阵列大小。
验证哈希的斑点尺寸。
添加可选库，例如OpenAI和句子转换器
- 还考虑其他嵌入提供商，例如CONERE
- 和libs只是为开发人员
考虑每个文本的最大值要嵌入，请警告如果我们超过
PDOC3和/或狮身人面像
默认情况下将嵌入式标准化，但添加选项
返回火炬张量的选项
考虑重复使用相同的DB连接，而不是每次都从头开始创建它。
添加batch_size参数？
测试检查是否碰撞
使用日志记录而不是详细输出。
使用类重写。
修复依赖关系。
不要继续使用DB会话，请将其存储在班级或全局
干燥。
建议使用版本为OpenAI模型
将设备添加到句子变形金刚
允许fast_sentence_transformers
测试如果有重复的字符串，事情可以正常工作
测试后删除DB
我们是否必须嵌套嵌入。
编解码器和代码质量盾牌

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-05-29
大小 19.16KB
来自于 Github

embeddingcache

嵌入曲线

动机

Quickstart

设计假设

开发人员说明

托多

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express