Proyek ini menunjukkan cara mengimplementasikan pipa generasi pengambilan (RAG) menggunakan embeddings wajah pelukan dan chromadb untuk pencarian semantik yang efisien. Solusi membaca, memproses, dan menanamkan data tekstual, memungkinkan pengguna untuk melakukan kueri yang akurat dan cepat pada data.
BAAI/bge-base-en-v1.5 ) untuk mengubah potongan teks menjadi representasi vektor.Sebelum menjalankan notebook, pastikan perpustakaan yang diperlukan diinstal:
pip install chromadb
pip install llama-indexAnda juga perlu mengkloning dataset yang diperlukan dari memeluk wajah jika Anda hanya ingin memeriksanya dan menguji kerja :):
git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-splitMuat kumpulan data :
Menyematkan kreasi :
BAAI/bge-base-en-v1.5 , potongan teks dikonversi menjadi embeddings vektor. Anda dapat model kesukaan Anda.Integrasi Chromadb :
Pencarian semantik :
Untuk menggunakan kode, cukup jalankan notebook setelah menginstal dependensi dan mengkloning dataset yang diperlukan. Perintah berikut dapat digunakan untuk menanyakan embeddings yang disimpan:
query_collection ( "Your search query here" , n_results = 1 )Ini akan mengembalikan potongan teks yang paling relevan berdasarkan kueri yang disediakan.
query_collection (
"Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." ,
n_results = 1
)Ada 2 file di sini. Yang sederhana hanya membuat database vektor dari satu file dan yang uang muka dapat mengerjakan beberapa file dengan ekstensi differnt dan membuat database vektor mereka dan Anda juga dapat mengujinya pada model teks-gen.
Repositori ini dilisensikan di bawah lisensi MIT.