Retrieval Augmented Generation RAG Using Hugging Face Embeddings Download - Retrieval Augmented Generation RAG Using Hugging Face Embeddings Sumber Code Download

Retrieval Augmented Generation RAG Using Hugging Face Embeddings

Kode sumber lainnya

1.0.0

Unduh

Retrieval-Augmented Generation (RAG) Menggunakan Embeddings Wajah Memeluk

Proyek ini menunjukkan cara mengimplementasikan pipa generasi pengambilan (RAG) menggunakan embeddings wajah pelukan dan chromadb untuk pencarian semantik yang efisien. Solusi membaca, memproses, dan menanamkan data tekstual, memungkinkan pengguna untuk melakukan kueri yang akurat dan cepat pada data.

Fitur

Integrasi Dataset : Memuat dan memproses dataset dari memeluk wajah.
Teks Chunking : Pisahkan teks besar menjadi potongan yang dapat dikelola untuk embedding.
Generasi Embeddings : Memanfaatkan Embeddings Wajah Memeluk ( BAAI/bge-base-en-v1.5 ) untuk mengubah potongan teks menjadi representasi vektor.
Penyimpanan Chromadb : Simpan embeddings di Chromadb untuk pengambilan yang mudah.
Pencarian Semantik : Permintaan data yang disimpan untuk teks yang relevan berdasarkan prompt yang disediakan menggunakan kesamaan semantik.

Instalasi

Sebelum menjalankan notebook, pastikan perpustakaan yang diperlukan diinstal:

pip install chromadb
pip install llama-index

Anda juga perlu mengkloning dataset yang diperlukan dari memeluk wajah jika Anda hanya ingin memeriksanya dan menguji kerja :):

git clone https://huggingface.co/datasets/NahedAbdelgaber/evaluating-student-writing
git clone https://huggingface.co/datasets/transformersbook/emotion-train-split

Cara kerjanya

Muat kumpulan data :
- Notebook memuat dataset "Evaluasi Penulisan Siswa" dan membagi teks menjadi potongan -potongan untuk penyematan.
Menyematkan kreasi :
- Menggunakan model BAAI/bge-base-en-v1.5 , potongan teks dikonversi menjadi embeddings vektor. Anda dapat model kesukaan Anda.
Integrasi Chromadb :
- Embeddings yang dihasilkan, bersama dengan potongan teks yang sesuai, disimpan di Chromadb untuk kegigihan dan kemudian meminta.
Pencarian semantik :
- Fungsi kueri disediakan untuk mencari database vektor menggunakan kueri input yang diberikan. Potongan yang relevan dikembalikan berdasarkan kesamaan dengan kueri.

Penggunaan

Untuk menggunakan kode, cukup jalankan notebook setelah menginstal dependensi dan mengkloning dataset yang diperlukan. Perintah berikut dapat digunakan untuk menanyakan embeddings yang disimpan:

 query_collection ( "Your search query here" , n_results = 1 )

Ini akan mengembalikan potongan teks yang paling relevan berdasarkan kueri yang disediakan.

Contoh

 query_collection (
  "Even though the planet is very similar to Earth, there are challenges to get accurate data because of the harsh conditions on the planet." , 
  n_results = 1
)

File

Ada 2 file di sini. Yang sederhana hanya membuat database vektor dari satu file dan yang uang muka dapat mengerjakan beberapa file dengan ekstensi differnt dan membuat database vektor mereka dan Anda juga dapat mengujinya pada model teks-gen.