embeddingcache下載 - embeddingcache源代碼下載

embeddingcache

其他源碼

1.0.0

下載

嵌入曲線

檢索文本嵌入，但是如果我們已經計算出它們，請在本地緩存它們。

動機

如果您正在執行一些不同的NLP任務，或者您可以繼續調整單個NLP管道，則可能不想重新計算嵌入。因此，我們緩存他們。

Quickstart

 pip install embeddingcache

 from embeddingcache.embeddingcache import get_embeddings
embeddings = get_embeddings(
            strs=["hi", "I love Berlin."],
            embedding_model="all-MiniLM-L6-v2",
            db_directory=Path("dbs/"),
            verbose=True,
        )

設計假設

我們使用sqlite3來緩存嵌入。 [因為我們使用sqlalchemy，因此可以輕鬆適應。 ]

我們假設有一位並發作家的讀數負載。（但是，我們重試寫失敗。）

我們將sqlite3插入兩個數據庫中：hashstring.db：hashstring表。每一行都是（唯一的，主鍵）SHA512哈希（也是唯一）。兩個字段均為索引。

[embedding_model_name] .db：嵌入式表。每一行都是（唯一的，主鍵）SHA512哈希到1 dim numpy（float32）向量，我們像字節一樣序列到表。

開發人員說明

 pre-commit install
pip install -e .
pytest

托多

更新pyproject.toml
添加測試
考慮其他哈希功能？
Float32和Float64支持
考慮添加可選的瓊布bib以緩存？
不同的計算嵌入方式（例如，使用API）而不是本地
S3備份和/或
沃爾
Litestream
重試寫錯誤
其他DB後端
最佳實踐：提供特定的OpenAI版本號。
rocksdb / rocksdb-cloud？
將模型名稱包括在DB中以進行理智檢查Slugify。
驗證Numpy陣列大小。
驗證哈希的斑點尺寸。
添加可選庫，例如OpenAI和句子轉換器
- 還考慮其他嵌入提供商，例如CONERE
- 和libs只是為開發人員
考慮每個文本的最大值要嵌入，請警告如果我們超過
PDOC3和/或獅身人面像
默認情況下將嵌入式標準化，但添加選項
返回火炬張量的選項
考慮重複使用相同的DB連接，而不是每次都從頭開始創建它。
添加batch_size參數？
測試檢查是否碰撞
使用日誌記錄而不是詳細輸出。
使用類重寫。
修復依賴關係。
不要繼續使用DB會話，請將其存儲在班級或全局
乾燥.
建議使用版本為OpenAI模型
將設備添加到句子變形金剛
允許fast_sentence_transformers
測試如果有重複的字符串，事情可以正常工作
測試後刪除DB
我們是否必須嵌套嵌入。
編解碼器和代碼質量盾牌

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-05-29
大小 19.16KB
來自於 Github

相關應用

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部