Téléchargement fvdb - Téléchargement du code source fvdb

fvdb

Autre code source

1.0.0

Télécharger

FVDB - Porcelaine mince autour de Faish

fvdb est un wrapper simple et minimal autour de la base de données vectorielle FAISS. Il utilise un indice L2 avec des vecteurs normalisés.

Il utilise le package faiss-cpu et sentence-transformers pour les intégres. Si vous avez besoin de la version GPU de FAISS (très probablement pas), vous pouvez simplement installer manuellement faiss-gpu et utiliser GPUIndexFlatL2 au lieu d' IndexFlatL2 dans fvdb/db.hy Vous pouvez toujours utiliser un modèle d'intégration de texte GPU même en utilisant faiss-cpu .

Si les résumés sont activés ( pas par défaut, voir la section de configuration ci-dessous), un résumé de l'extrait sera stocké à côté de l'extrait.

Il correspond bien à Trag.

Caractéristiques

Recherche de similitude avec score
Choix des intérêts de transformateur de phrase
Formatage utile des résultats (JSON, tabulé ...)
CLI Access
extraire des résumés

Toute entrée autre que le texte brut (Markdown, Asciidoc, RST, code source, etc.) est hors de portée . Vous devez l'un des nombreux packages disponibles (non structurés, Trafiltura, docling, etc.) pour se convertir en texte en clair à une étape distincte.

Usage

 import hy # fvdb is written in Hy, but you can use it from python too
from fvdb import faiss , ingest , similar , sources , write

# data ingestion
v = faiss ()
ingest ( v , "doc.md" )
ingest ( v , "docs-dir" )
write ( v , "/tmp/test.fvdb" ) # defaults to $XDG_DATA_HOME/fvdb (~/.local/share/fvdb/ on Linux)

# search
results = similar ( v , "some query text" )
results = marginal ( v , "some query text" ) # not yet implemented

# information, management
sources ( v )
    { ...
      'docs-dir/Once More to the Lake.txt' ,
      'docs-dir/Politics and the English Language.txt' ,
      'docs-dir/Reflections on Gandhi.txt' ,
      'docs-dir/Shooting an elephant.txt' ,
      'docs-dir/The death of the moth.txt' ,
      ... }

info ( v )
    {   'records' : 42 ,
        'embeddings' : 42 ,
        'embedding_dimension' : 1024 ,
        'is_trained' : True ,
        'path' : '/tmp/test-vdb' ,
        'sources' : 24 ,
        'embedding_model' : 'Alibaba-NLP/gte-large-en-v1.5' }

nuke ( v )

Ceux-ci sont également disponibles à partir de la ligne de commande.

$ # defaults to $XDG_DATA_HOME/fvdb (~/.local/share/fvdb/ on Linux)
# data ingestion (saves on exit)
$ fvdb ingest doc.md
    Adding 2 records

$ fvdb ingest docs-dir
    Adding 42 records

$ # search
$ fvdb similar -j " some query text " > results.json   # --json / -j gives json output

$ fvdb similar -r 2 " George Orwell's formative experience as a policeman in colonial Burma "
    # defaults to tabulated output (not all fields will be shown)
       score  source                             added                               page    length
    --------  ---------------------------------- --------------------------------  ------  --------
    0.579925  docs-dir/A hanging.txt             2024-11-05T11:37:26.232773+00:00       0      2582
    0.526988  docs-dir/Shooting an elephant.txt  2024-11-05T11:37:43.891659+00:00       0      3889

$ fvdb marginal " some query text "                       # not yet implemented

$ # information, management
$ fvdb sources
    ...
    docs-dir/Once More to the Lake.txt
    docs-dir/Politics and the English Language.txt
    docs-dir/Reflections on Gandhi.txt
    docs-dir/Shooting an elephant.txt
    docs-dir/The death of the moth.txt
    ...

$ fvdb info
    -------------------  -----------------------------
    records              44
    embeddings           44
    embedding_dimension  1024
    is_trained           True
    path                 /tmp/test
    sources              24
    embedding_model      Alibaba-NLP/gte-large-en-v1.5
    -------------------  -----------------------------

$ fvdb nuke

Configuration

Recherche $XDG_CONFIG_HOME/fvdb/conf.toml , autrement utilise les défauts par défaut.

Vous ne pouvez pas mélanger des modèles d'intégration dans un seul FVDB.

Voici un exemple.

 # Sets the default path to something other than $XDG_CONFIG_HOME/fvdb/conf.toml
path = " /tmp/test.fvdb "

# Summaries are useful if you use an embedding model with large maximum sequence length,
# for example, gte-large-en-v1.5 has maximum sequence length of 8192.
summary = true		

# A conservative default model, maximum sequence length of 512,
# so no point using summaries.
embeddings.model = " all-mpnet-base-v2 "

# # Some models need extra options
# embeddings.model = "Alibaba-NLP/gte-large-en-v1.5"
# embeddings.trust_remote_code = true
# # You can put some smaller models on a cpu, but larger models will be slow
# embeddings.device = "cpu"

Installation

Installez d'abord Pytorch, qui est utilisé par sentence-transformers . Vous devez décider si vous souhaitez la version CPU ou CUDA (NVIDIA GPU) de Pytorch. Pour des incorporations de texte pour fvdb , le CPU est suffisant, avec le modèle par défaut.

Alors,