Download do fvdb - Download do código fonte fvdb

fvdb

Outro código-fonte

1.0.0

Baixar

FVDB - Porcelana fina em torno de Faiss

fvdb é um invólucro simples e mínimo em torno do banco de dados do FAISS Vector. Ele usa um índice L2 com vetores normalizados.

Ele usa o pacote faiss-cpu e sentence-transformers para incorporações. Se você precisar da versão GPU do FAISS (provavelmente não), basta instalar manualmente faiss-gpu e usar GPUIndexFlatL2 em vez de IndexFlatL2 em fvdb/db.hy . Você ainda pode usar um modelo de incorporação de texto GPU, mesmo usando faiss-cpu .

Se os resumos estiverem ativados ( não o padrão, consulte a seção de configuração abaixo), um resumo do extrato será armazenado ao lado do extrato.

Combina bem com o Trag.

Características

Pesquisa de similaridade com pontuação
Escolha de incorporações de transformador de frases
Formatação útil dos resultados (JSON, tabulou ...)
Acesso da CLI
Extrair resumos

Qualquer entrada que não seja texto simples (Markdown, ASCIIDOC, RST, código -fonte etc.) está fora de escopo . Você deve um dos muitos pacotes disponíveis (não estruturado, Trafiltura, documentos, etc.) para converter em texto sem formatação em uma etapa separada.

Uso

 import hy # fvdb is written in Hy, but you can use it from python too
from fvdb import faiss , ingest , similar , sources , write

# data ingestion
v = faiss ()
ingest ( v , "doc.md" )
ingest ( v , "docs-dir" )
write ( v , "/tmp/test.fvdb" ) # defaults to $XDG_DATA_HOME/fvdb (~/.local/share/fvdb/ on Linux)

# search
results = similar ( v , "some query text" )
results = marginal ( v , "some query text" ) # not yet implemented

# information, management
sources ( v )
    { ...
      'docs-dir/Once More to the Lake.txt' ,
      'docs-dir/Politics and the English Language.txt' ,
      'docs-dir/Reflections on Gandhi.txt' ,
      'docs-dir/Shooting an elephant.txt' ,
      'docs-dir/The death of the moth.txt' ,
      ... }

info ( v )
    {   'records' : 42 ,
        'embeddings' : 42 ,
        'embedding_dimension' : 1024 ,
        'is_trained' : True ,
        'path' : '/tmp/test-vdb' ,
        'sources' : 24 ,
        'embedding_model' : 'Alibaba-NLP/gte-large-en-v1.5' }

nuke ( v )

Eles também estão disponíveis na linha de comando.

$ # defaults to $XDG_DATA_HOME/fvdb (~/.local/share/fvdb/ on Linux)
# data ingestion (saves on exit)
$ fvdb ingest doc.md
    Adding 2 records

$ fvdb ingest docs-dir
    Adding 42 records

$ # search
$ fvdb similar -j " some query text " > results.json   # --json / -j gives json output

$ fvdb similar -r 2 " George Orwell's formative experience as a policeman in colonial Burma "
    # defaults to tabulated output (not all fields will be shown)
       score  source                             added                               page    length
    --------  ---------------------------------- --------------------------------  ------  --------
    0.579925  docs-dir/A hanging.txt             2024-11-05T11:37:26.232773+00:00       0      2582
    0.526988  docs-dir/Shooting an elephant.txt  2024-11-05T11:37:43.891659+00:00       0      3889

$ fvdb marginal " some query text "                       # not yet implemented

$ # information, management
$ fvdb sources
    ...
    docs-dir/Once More to the Lake.txt
    docs-dir/Politics and the English Language.txt
    docs-dir/Reflections on Gandhi.txt
    docs-dir/Shooting an elephant.txt
    docs-dir/The death of the moth.txt
    ...

$ fvdb info
    -------------------  -----------------------------
    records              44
    embeddings           44
    embedding_dimension  1024
    is_trained           True
    path                 /tmp/test
    sources              24
    embedding_model      Alibaba-NLP/gte-large-en-v1.5
    -------------------  -----------------------------

$ fvdb nuke

Configuração

Procura $XDG_CONFIG_HOME/fvdb/conf.toml , caso contrário, usa padrões.

Você não pode misturar modelos de incorporação em um único FVDB.

Aqui está um exemplo.

 # Sets the default path to something other than $XDG_CONFIG_HOME/fvdb/conf.toml
path = " /tmp/test.fvdb "

# Summaries are useful if you use an embedding model with large maximum sequence length,
# for example, gte-large-en-v1.5 has maximum sequence length of 8192.
summary = true		

# A conservative default model, maximum sequence length of 512,
# so no point using summaries.
embeddings.model = " all-mpnet-base-v2 "

# # Some models need extra options
# embeddings.model = "Alibaba-NLP/gte-large-en-v1.5"
# embeddings.trust_remote_code = true
# # You can put some smaller models on a cpu, but larger models will be slow
# embeddings.device = "cpu"

Instalação

Primeiro instale o pytorch, usado por sentence-transformers . Você deve decidir se deseja a versão CPU ou CUDA (NVIDIA GPU) do Pytorch. Para apenas incorporações de texto para fvdb , a CPU é suficiente, com o modelo padrão.

Então,