Chatbot dengan PDF untuk pencarian semantik atas dokumen (Build With Streamlit, Langchain, Pinecone/Chroma/Azure Cognitive Search)
Repositori ini berisi contoh kode untuk cara membangun chatbot interaktif untuk pencarian semantik atas dokumen. Chatbot memungkinkan pengguna untuk mengajukan pertanyaan bahasa alami dan mendapatkan jawaban yang relevan dari kumpulan dokumen. Chatbot menggunakan streamlit untuk antarmuka web dan chatbot, langchain, dan memanfaatkan berbagai jenis database vektor, seperti pinecone, chroma, dan pencarian vektor pencarian kognitif Azure, untuk melakukan pencarian kesamaan yang efisien dan akurat. Kode ini ditulis dalam Python dan dapat dengan mudah dimodifikasi agar sesuai dengan kasus penggunaan dan sumber data yang berbeda.
Harap juga periksa cerita saya dalam medium (Database StreamLit dan Vector: Panduan untuk Membuat Aplikasi Web Interaktif untuk Pencarian Semantik atas Dokumen) untuk berbagi detail lebih lanjut.
- preprocess_pinecone.ipynb <- contoh menggunakan model embedding dari layanan azure openai untuk menyematkan konten dari dokumen dan menyimpannya ke database vektor pinecone.
- preprocess_chroma.ipynb <- contoh menggunakan model embedding dari layanan azure openai untuk menyematkan konten dari dokumen dan menyimpannya ke dalam database vektor chroma.
- preprocess_acs.ipynb <- contoh menggunakan model embedding dari layanan azure openai untuk menyematkan konten dari dokumen dan menyimpannya ke database vektor pencarian kognitif Azure.
- consume_pinecone.ipynb <-Contoh penggunaan modul anjing tanya langchain untuk melakukan pencarian kesamaan dari database vektor Pinecone dan menggunakan GPT-3.5 (Text-Davin-003) untuk meringkas hasilnya.
- consume_chroma.ipynb <-Contoh penggunaan modul queswering langchain untuk melakukan pencarian kesamaan dari database vektor chroma dan menggunakan GPT-3.5 (Text-Davin-003) untuk meringkas hasilnya.
- consume_acs.ipynb <-Contoh penggunaan modul imbalan tanya langchain untuk melakukan pencarian kesamaan dari database vektor pencarian kognitif Azure dan menggunakan GPT-3.5 (Text-Davin-003) untuk meringkas hasilnya.
- app_pinecone.py <- Contoh Menggunakan Database Vektor StreamLit, Langchain, dan Pinecone untuk membangun chatbot interaktif untuk memfasilitasi pencarian semantik atas dokumen. Ini menggunakan model GPT-3.5-Turbo dari Azure Openai Service untuk ringkasan hasil dan obrolan.
- app_chroma.py <- Contoh Menggunakan Database StreamLit, Langchain, dan Chroma Vector untuk membangun chatbot interaktif untuk memfasilitasi pencarian semantik atas dokumen. Ini menggunakan model GPT-3.5-Turbo dari Azure Openai Service untuk ringkasan hasil dan obrolan.
- app_acs.py <- Contoh menggunakan database vektor pencarian kognitif streamlit, langchain, dan azure untuk membangun chatbot interaktif untuk memfasilitasi pencarian semantik atas dokumen. Ini menggunakan model GPT-3.5-Turbo dari Azure Openai Service untuk ringkasan hasil dan obrolan.
Untuk menjalankan aplikasi web yang diintangkan ini
streamlit run app_pinecone.py
Arsitektur tingkat tinggi dan aliran pencarian semantik ini atas demo dokumen 
Menikmati!