fvdb est un wrapper simple et minimal autour de la base de données vectorielle FAISS. Il utilise un indice L2 avec des vecteurs normalisés.
Il utilise le package faiss-cpu et sentence-transformers pour les intégres. Si vous avez besoin de la version GPU de FAISS (très probablement pas), vous pouvez simplement installer manuellement faiss-gpu et utiliser GPUIndexFlatL2 au lieu d' IndexFlatL2 dans fvdb/db.hy Vous pouvez toujours utiliser un modèle d'intégration de texte GPU même en utilisant faiss-cpu .
Si les résumés sont activés ( pas par défaut, voir la section de configuration ci-dessous), un résumé de l'extrait sera stocké à côté de l'extrait.
Il correspond bien à Trag.
Toute entrée autre que le texte brut (Markdown, Asciidoc, RST, code source, etc.) est hors de portée . Vous devez l'un des nombreux packages disponibles (non structurés, Trafiltura, docling, etc.) pour se convertir en texte en clair à une étape distincte.
import hy # fvdb is written in Hy, but you can use it from python too
from fvdb import faiss , ingest , similar , sources , write
# data ingestion
v = faiss ()
ingest ( v , "doc.md" )
ingest ( v , "docs-dir" )
write ( v , "/tmp/test.fvdb" ) # defaults to $XDG_DATA_HOME/fvdb (~/.local/share/fvdb/ on Linux)
# search
results = similar ( v , "some query text" )
results = marginal ( v , "some query text" ) # not yet implemented
# information, management
sources ( v )
{ ...
'docs-dir/Once More to the Lake.txt' ,
'docs-dir/Politics and the English Language.txt' ,
'docs-dir/Reflections on Gandhi.txt' ,
'docs-dir/Shooting an elephant.txt' ,
'docs-dir/The death of the moth.txt' ,
... }
info ( v )
{ 'records' : 42 ,
'embeddings' : 42 ,
'embedding_dimension' : 1024 ,
'is_trained' : True ,
'path' : '/tmp/test-vdb' ,
'sources' : 24 ,
'embedding_model' : 'Alibaba-NLP/gte-large-en-v1.5' }
nuke ( v )Ceux-ci sont également disponibles à partir de la ligne de commande.
$ # defaults to $XDG_DATA_HOME/fvdb (~/.local/share/fvdb/ on Linux)
# data ingestion (saves on exit)
$ fvdb ingest doc.md
Adding 2 records
$ fvdb ingest docs-dir
Adding 42 records
$ # search
$ fvdb similar -j " some query text " > results.json # --json / -j gives json output
$ fvdb similar -r 2 " George Orwell's formative experience as a policeman in colonial Burma "
# defaults to tabulated output (not all fields will be shown)
score source added page length
-------- ---------------------------------- -------------------------------- ------ --------
0.579925 docs-dir/A hanging.txt 2024-11-05T11:37:26.232773+00:00 0 2582
0.526988 docs-dir/Shooting an elephant.txt 2024-11-05T11:37:43.891659+00:00 0 3889
$ fvdb marginal " some query text " # not yet implemented
$ # information, management
$ fvdb sources
...
docs-dir/Once More to the Lake.txt
docs-dir/Politics and the English Language.txt
docs-dir/Reflections on Gandhi.txt
docs-dir/Shooting an elephant.txt
docs-dir/The death of the moth.txt
...
$ fvdb info
------------------- -----------------------------
records 44
embeddings 44
embedding_dimension 1024
is_trained True
path /tmp/test
sources 24
embedding_model Alibaba-NLP/gte-large-en-v1.5
------------------- -----------------------------
$ fvdb nuke Recherche $XDG_CONFIG_HOME/fvdb/conf.toml , autrement utilise les défauts par défaut.
Vous ne pouvez pas mélanger des modèles d'intégration dans un seul FVDB.
Voici un exemple.
# Sets the default path to something other than $XDG_CONFIG_HOME/fvdb/conf.toml
path = " /tmp/test.fvdb "
# Summaries are useful if you use an embedding model with large maximum sequence length,
# for example, gte-large-en-v1.5 has maximum sequence length of 8192.
summary = true
# A conservative default model, maximum sequence length of 512,
# so no point using summaries.
embeddings.model = " all-mpnet-base-v2 "
# # Some models need extra options
# embeddings.model = "Alibaba-NLP/gte-large-en-v1.5"
# embeddings.trust_remote_code = true
# # You can put some smaller models on a cpu, but larger models will be slow
# embeddings.device = "cpu" Installez d'abord Pytorch, qui est utilisé par sentence-transformers . Vous devez décider si vous souhaitez la version CPU ou CUDA (NVIDIA GPU) de Pytorch. Pour des incorporations de texte pour fvdb , le CPU est suffisant, avec le modèle par défaut.
Alors,
pip install fvdbEt c'est tout.