Selamat datang di jalur pipa pertanyaan dengan VectorBB dan Model Bahasa Besar (LLM). Proyek ini bertujuan untuk membuat pipa yang efisien dan dapat diskalakan untuk tugas-tugas yang dianugerahkan dengan menggunakan Chromadb yang merupakan basis data vektor sumber terbuka, bersama dengan LLAMA2 yang juga merupakan model bahasa besar (LLM).
Input Pengguna: Pengguna menyediakan sumber data tekstual dalam format seperti .pdf. Dokumen -dokumen ini berfungsi sebagai dasar untuk menghasilkan tanggapan.
Pemuatan Dokumen: Loader dokumen Langchain digunakan untuk memuat secara efisien dan melakukan preprocess dokumen yang disediakan, memastikan kompatibilitas dengan tugas hilir.
Dokumen Chunking: Dokumen yang dimuat dibagi menjadi potongan-potongan yang lebih kecil dan dapat dikelola untuk meningkatkan efisiensi proses jawaban pertanyaan.
Menanamkan penyimpanan di VectorBB (ChromadB): Embeddings chunks dihasilkan dan disimpan dalam ChromadB, teknologi yang mendasari VectorDB, memungkinkan pengambilan informasi yang cepat dan akurat.
Pemrosesan kueri: Kueri pengguna dikonversi menjadi embeddings, memungkinkan untuk perbandingan yang mulus dengan embeddings dokumen yang disimpan.
Pencarian Database Vektor: Vectorbb ditanya dengan embeddings yang dihasilkan untuk mengambil potongan informasi yang relevan, mengoptimalkan proses imbalan pertanyaan.
Pemrosesan LLM (LLAMA2): Embeddings yang diambil diteruskan ke LLAMA2, sebuah LLM, yang menghasilkan jawaban yang sadar dan akurat untuk kueri pengguna.
Untuk memulai jalur pipa pertanyaan, pengguna perlu menyediakan sumber data tekstual mereka dalam format yang didukung (format yang saat ini didukung adalah: PDF, CSV, HTML, XLSX, DOCX, XML, JSON ). Ikuti bagian berikutnya untuk memastikan instalasi dan konfigurasi dependensi yang tepat.
Ikuti langkah-langkah ini untuk menjalankan pipa pertanyaan dengan sukses:
Instal dependensi: Pastikan Anda memiliki semua dependensi yang diperlukan. Jalankan perintah berikut di sel notebook:
!pip install langchain
!pip install PyPDF
!pip install sentence_transformers
!pip install chromadb
!pip install accelerate
!pip install bitsandbytes
!pip install jq
!pip install unstructured
Kustomisasi parameter:
Buka notebook dan temukan parameter berikut:
JQ_SCHEMA: Kustomisasi parameter ini sesuai dengan skema data Anda. Tentukan struktur data tekstual Anda untuk pemuatan dan pemrosesan yang tepat.
Input_path: Tentukan jalur ke sumber data tekstual Anda, seperti file .pdf. Pastikan bahwa jalur diatur dengan benar ke dokumen Anda.
Token Otorisasi Hidging Face: Pastikan untuk mendapatkan token otorisasi dari wajah memeluk untuk mengunduh model LLAMA2. Token ini sangat penting untuk mengakses model. Atur token di bagian notebook yang sesuai.
Jalankan notebook: Jalankan sel notebook Jupyter oleh sel. Pastikan setiap sel berhasil dijalankan tanpa kesalahan.
Kami menyambut kontribusi dan umpan balik dari komunitas. Apakah Anda mengidentifikasi masalah, memiliki saran untuk perbaikan, atau ingin memperluas fungsionalitas, input Anda sangat berharga bagi kami. Jangan ragu untuk berkontribusi pada proyek. Terima kasih telah menjelajahi proyek kami.