Chatbot avec PDF pour la recherche sémantique sur des documents (Build with Streamlit, Langchain, Pinecone / ChroMA / Azure Recherche cognitive)
Ce référentiel contient un exemple de code pour créer un chatbot interactif pour la recherche sémantique sur les documents. Le chatbot permet aux utilisateurs de poser des questions en langage naturel et d'obtenir des réponses pertinentes à partir d'une collection de documents. Le chatbot utilise Streamlit pour l'interface Web et Chatbot, Langchain, et exploite divers types de bases de données vectorielles, telles que la recherche de vecteur de la recherche de PineCone, le chroma et la recherche de la recherche cognitive Azure, pour effectuer une recherche de similitude efficace et précise. Le code est écrit en Python et peut être facilement modifié pour convenir à différents cas d'utilisation et sources de données.
Veuillez également consulter mon histoire dans les bases de données Medium (Sationlit et Vector: un guide pour créer des applications Web interactives pour la recherche sémantique sur des documents) pour un partage plus de détails.
- Preprocess_PineCone.ipynb <- Exemple d'utilisation du modèle d'intégration à partir du service Azure OpenAI pour intégrer le contenu du document et l'enregistrer dans la base de données Vector Pinecone.
- Preprocess_chroma.ipynb <- Exemple d'utilisation du modèle d'intégration à partir du service Azure OpenAI pour intégrer le contenu du document et l'enregistrer dans la base de données de vecteur de chroma.
- Preprocess_acs.ipynb <- Exemple d'utilisation du modèle d'intégration à partir du service Azure OpenAI pour intégrer le contenu à partir du document et l'enregistrer dans la base de données de vecteur de recherche cognitive Azure.
- Consume_PineCone.ipynb <- Exemple d'utilisation du module de réponse aux questions de Langchain pour effectuer la recherche de similitude à partir de la base de données vectorielle de Pinecone et utilisez le GPT-3.5 (Text-Davinci-003) pour résumer le résultat.
- Consume_chroma.ipynb <- Exemple d'utilisation du module de réponse aux questions de Langchain pour effectuer une recherche de similitude à partir de la base de données de vecteur de chroma et utiliser le GPT-3.5 (Text-Davinci-003) pour résumer le résultat.
- Consume_acs.ipynb <- Exemple de l'utilisation du module de réponse aux questions de Langchain pour effectuer la recherche de similitude à partir de la base de données de vecteur de recherche cognitive Azure et utilisez le GPT-3.5 (Text-Davinci-003) pour résumer le résultat.
- app_pineconcone.py <- Exemple d'utilisation de la base de données Streamlit, Langchain et PineCone pour créer un chatbot interactif pour faciliter la recherche sémantique sur les documents. Il utilise le modèle GPT-3.5-Turbo à partir du service Azure OpenAI pour la résumé des résultats et le chat.
- App_chroma.py <- Exemple d'utilisation de la base de données Streamlit, Langchain et ChroMA Vector pour créer un chatbot interactif pour faciliter la recherche sémantique sur les documents. Il utilise le modèle GPT-3.5-Turbo à partir du service Azure OpenAI pour la résumé des résultats et le chat.
- app_acs.py <- Exemple d'utilisation de la base de données de vecteur de recherche cognitive Streamlit, Langchain et Azure pour créer un chatbot interactif pour faciliter la recherche sémantique sur les documents. Il utilise le modèle GPT-3.5-Turbo à partir du service Azure OpenAI pour la résumé des résultats et le chat.
Pour exécuter cette application Web Streamlit
streamlit run app_pinecone.py
Architecture de haut niveau et flux de cette recherche sémantique sur la démo des documents 
Apprécier!