Unduh sifts - Unduh Kode Sumber sifts

sifts

Kode sumber lainnya

v1.0.0

Unduh

Sifts - Teks Lengkap Sederhana & Pencarian Semantik

? Sifts adalah paket Python yang sederhana namun kuat untuk mengelola dan meminta koleksi dokumen dengan dukungan untuk database SQLite dan PostgreSQL.

Ini dirancang untuk secara efisien menangani pencarian teks lengkap dan pencarian vektor, menjadikannya ideal untuk aplikasi yang melibatkan pengambilan data teks skala besar.

Fitur

Dukungan database ganda : SIFTS bekerja dengan SQLite dan PostgreSQL, menawarkan kesederhanaan SQLite untuk aplikasi ringan dan skalabilitas PostgreSQL untuk lingkungan produksi yang lebih besar.
Pencarian teks lengkap (FTS) : Lakukan kueri pencarian teks canggih dengan dukungan pencarian teks lengkap.
Pencarian Vektor : Integrasi dengan model embedding untuk melakukan pencarian kesamaan berbasis vektor, sempurna untuk aplikasi yang melibatkan pemrosesan bahasa alami.
Permintaan Fleksibel : Mendukung kueri kompleks dengan penyaringan, pemesanan, dan pagination.

Latar belakang

Gagasan utama SIFT adalah untuk memanfaatkan kemampuan pencarian teks lengkap bawaan di SQLite dan PostgreSQL dan membuatnya tersedia melalui API Pythonic yang terpadu. Anda dapat menggunakan SQLite untuk proyek -proyek kecil atau pengembangan dan berpaling sepele ke PostgreSQL untuk skala aplikasi Anda.

Untuk pencarian vektor, kesamaan kosinus dihitung di PostgreSQL melalui ekstensi pgvektor, sedangkan dengan kesamaan SQLite dihitung dalam memori.

Sifts tidak datang dengan mode server karena dimaksudkan sebagai perpustakaan untuk diimpor oleh aplikasi lain. Motivasi asli untuk pengembangannya adalah menggantikan whoosh sebagai pencarian backend di gramps web, yang didasarkan pada flask.

Instalasi

Anda dapat menginstal SIFTS melalui PIP:

pip install sifts

Penggunaan

Pencarian teks lengkap

 import sifts

# by default, creates a new SQLite database in the working directory
collection = sifts . Collection ( name = "my_collection" )

# Add docs to the index. Can also update and delete.
collection . add (
    documents = [ "Lorem ipsum dolor" , "sit amet" ],
    metadatas = [{ "foo" : "bar" }, { "foo" : "baz" }], # otpional, can filter on these
    ids = [ "doc1" , "doc2" ], # unique for each doc. Uses UUIDs if omitted
)

results = collection . query (
    "Lorem" ,
    # limit=2,  # optionally limit the number of results
    # where={"foo": "bar"},  # optional filter
    # order_by="foo",  # sort by metadata key (rather than rank)
)

API terinspirasi oleh Chroma.

Sintaks pencarian teks lengkap

Sifts mendukung sintaks pencarian berikut:

Cari Kata Individual
Cari banyak kata (akan cocok dengan dokumen di mana semua kata ada)
and operator
or operator
* Wildcard (di SQLite, didukung di mana saja dalam istilah pencarian, di PostgreSQL hanya di akhir istilah pencarian)

Sintaks pencarian adalah sama terlepas dari backend.

Pencarian vektor (pencarian semantik)

Sifts juga dapat digunakan sebagai toko vektor, digunakan untuk mesin pencari semantik atau generasi pengambilan-pengambilan (RAG) dengan model bahasa besar (LLM).

Cukup lulus embedding_function ke pabrik Collection untuk memungkinkan penyimpanan vektor dan atur vector_search=True dalam metode kueri. Misalnya, menggunakan perpustakaan Transformers Kalimat,

 from sentence_transformers import SentenceTransformer

model = SentenceTransformer ( "intfloat/multilingual-e5-small" )

def embedding_function ( queries : list [ str ]):
    return model . encode ( queries )

collection = sifts . Collection (
    db_url = "sqlite:///vector_store.db" ,
    name = "my_vector_store" ,
    embedding_function = embedding_function
)

# Adding vector data to the collection
collection . add ([ "This is a test sentence." , "Another example query." ])

# Querying the collection with semantic search
results = collection . query ( "Find similar sentences." , vector_search = True )

Koleksi PostgreSQL memerlukan pemasangan dan mengaktifkan ekstensi pgvector .

Memperbarui dan menghapus dokumen

Dokumen dapat diperbarui atau dihapus menggunakan ID mereka.

 # Update a document
collection . update ( ids = [ "document_id" ], contents = [ "Updated content" ])

# Delete a document
collection . delete ( ids = [ "document_id" ])

Berkontribusi

Kontribusi dipersilakan! Jangan ragu untuk membuat masalah jika Anda mengalami masalah atau memiliki saran peningkatan, dan bahkan lebih baik mengirimkan PR bersama dengan itu!

Lisensi

Sifts dilisensikan di bawah lisensi MIT. Lihat file lisensi untuk detailnya.

Selamat menyaring!

Memperluas

Informasi Tambahan

Versi v1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-24
ukuran 20.56KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua