Download embeddingcache embeddingcache

embeddingcache

Outro código-fonte

1.0.0

Baixar

incorpingdingCache

Recupere as incorporações de texto, mas cache -as localmente se já as calculamos.

Motivação

Se você estiver executando um punhado de tarefas diferentes de PNL ou tiver um único pipeline de NLP que você continua ajustando, provavelmente não deseja recomputar incorporações. Por isso, nós os cache.

Investir rápido

 pip install embeddingcache

 from embeddingcache.embeddingcache import get_embeddings
embeddings = get_embeddings(
            strs=["hi", "I love Berlin."],
            embedding_model="all-MiniLM-L6-v2",
            db_directory=Path("dbs/"),
            verbose=True,
        )

Pressupostos de projeto

Usamos o SQLITE3 para cache incorporados. [Isso pode ser adaptado facilmente, pois usamos o sqlalchemy.]

Assumimos cargas pesadas de leitura, com um escritor simultâneo. (No entanto, tentamos novamente em falhas de gravação.)

SHARD SQLITE3 em dois bancos de dados: hashstring.db: tabela de hashstring. Cada linha é um hash SHA512 (exclusivo e primário) para texto (também exclusivo). Ambos os campos são indexados.

[incorpingding_model_name] .db: tabela de incorporação. Cada linha é um hash SHA512 (exclusivo, chave primária) para um vetor Numpy (float32) de 1 aNIM, que serializamos para a mesa como bytes.

Instruções do desenvolvedor

 pre-commit install
pip install -e .
pytest

PENDÊNCIA

Atualize pyProject.toml
Adicione testes
Considere outras funções de hash?
Suporte Float32 e Float64
Considere adicionar joblib opcional para armazenamento em cache?
Diferentes maneiras de calcular incorporações (por exemplo, usando uma API) em vez de localmente
Backup s3 e/ou
Wal
Litestream
Representar em erros de gravação
Outros back -ends de banco de dados
Melhores práticas: dê um número específico de versão do OpenAI.
Rocksdb / rocksdb-cloud?
Inclua o nome do modelo em banco de dados para verificação de sanidade no slugify.
Validar no tamanho da matriz Numpy.
Validar tamanho do blob para hashes.
Adicione bibliotecas opcionais como o OpenAI e Sentews-Transformers
- Considere também outros provedores de incorporação, por exemplo, Coere
- E Libs apenas para desenvolvedores
Considere o max_length de cada texto para incorporar, avisar se excedermos
pdoc3 e/ou esfinge
Normalize as incorporações por padrão, mas adicione a opção
Opção para retornar os tensores da tocha
Considere reutilizar a mesma conexão de banco de dados em vez de criá -la do zero sempre.
Adicionar parâmetro batch_size?
Verificação de teste para colisões
Use o registro não é uma saída detalhada.
Reescrever usando classes.
Corrigir DependBot.
Não continue reutilizando a sessão de banco de dados, armazenam-a na classe ou global
SECO.
Sugerir para usar o modelo OpenAI de versão em versão
Adicione o dispositivo aos transformadores de frases
Permitir fast_sentence_transformers
Teste que as coisas funcionam se houver strings duplicados
Remova o DBS após o teste
Temos que ter a incorporação aninhada.
Escudos de qualidade de codecov e código

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-29
tamanho 19.16KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos