embeddingcacheのダウンロードembeddingcacheソースコードのダウンロード

embeddingcache

その他のソースコード

1.0.0

ダウンロード

EmbeddingCache

テキストの埋め込みを取得しますが、すでに計算している場合はローカルにキャッシュします。

モチベーション

いくつかの異なるNLPタスクを実行している場合、またはチューニングを続けているNLPパイプラインを1つ持っている場合は、おそらく埋め込みを再計算したくないでしょう。したがって、キャッシュします。

クイックスタート

 pip install embeddingcache

 from embeddingcache.embeddingcache import get_embeddings
embeddings = get_embeddings(
            strs=["hi", "I love Berlin."],
            embedding_model="all-MiniLM-L6-v2",
            db_directory=Path("dbs/"),
            verbose=True,
        )

仮定を設計します

sqlite3を使用して埋め込みをキャッシュします。 [Sqlalchemyを使用するため、これは簡単に適応できます。]

1人の同時ライターとともに、読み上げられる負荷を想定しています。（ただし、書き込み障害を再試行します。）

sqlite3を2つのデータベースに入れます：Hashstring.db：Hashstringテーブル。各行は、テキスト（ユニーク）への（ユニークな主要なキー）SHA512ハッシュです。両方のフィールドにインデックスが付けられています。

[embedding_model_name] .db：埋め込みテーブル。各行は、1-dim numpy（float32）ベクトルに対する（一意のプライマリキー）SHA512ハッシュであり、これをバイトとしてテーブルにシリアル化します。

開発者の指示

 pre-commit install
pip install -e .
pytest

トト

pyproject.tomlを更新します
テストを追加します
他のハッシュ関数を検討しますか？
float32およびfloat64サポート
キャッシュにオプションのJoblibを追加することを検討してください。
埋め込みのさまざまな方法（例：APIを使用するなど）はローカルではなく
S3バックアップおよび/または
ウォル
ライトストリーム
書き込みエラーを再試行します
他のDBバックエンド
ベストプラクティス：特定のOpenAIバージョン番号を指定します。
ROCKSDB / ROCKSDB-CLOUD？
Slugifyの正気確認のためにDBにモデル名を含めます。
numpy配列サイズで検証します。
ハッシュのBLOBサイズを検証します。
Openaiや文の変換者などのオプションのライブラリを追加します
- また、他の埋め込みプロバイダーなどを考えてみましょう
- そして、DEVSのためだけにLibs
各テキストのmax_lengthを埋め込みます。
PDOC3および/またはスフィンクス
デフォルトで埋め込みを正規化しますが、オプションを追加します
トーチテンソルを返すオプション
毎回ゼロから作成するのではなく、同じDB接続を再利用することを検討してください。
batch_sizeパラメーターを追加しますか？
衝突のテストチェック
冗長出力ではなくロギングを使用します。
クラスを使用して書き直します。
Depenabotを修正します。
DBセッションを再利用し続けないでください、クラスまたはグローバルに保管してください
ドライ。
バージョンされたOpenAIモデルを使用することをお勧めします
文の変圧器にデバイスを追加します
fast_sentence_transformersを許可します
文字列が重複している場合は、物事が機能することをテストします
テスト後にDBを削除します
すべての呼び出しに対してネストされた埋め込みを必要とする必要がありますか？
CodecovおよびCode Quality Shields