Chatbot mit PDF für semantische Suche über Dokumente (bauen mit stromanischer, langchain, pinecone/chroma/azurblau kognitive Suche)
Dieses Repository enthält ein Codebeispiel, um einen interaktiven Chatbot für semantische Suche über Dokumente zu erstellen. Mit dem Chatbot können Benutzer natürliche Sprachfragen stellen und relevante Antworten aus einer Sammlung von Dokumenten erhalten. Der Chatbot verwendet Streamlit für die Web- und Chatbot -Schnittstelle, Langchain und nutzt verschiedene Arten von Vektordatenbanken wie Pinecone, Chroma und Azure Cognitive Search von Vektorsuche, um eine effiziente und genaue Suchanlage für die Ähnlichkeit durchzuführen. Der Code ist in Python geschrieben und kann leicht so geändert werden, dass sie unterschiedliche Anwendungsfälle und Datenquellen entsprechen.
Bitte besuchen Sie auch meine Geschichte in Medium (Streamlit- und Vector -Datenbanken: Eine Anleitung zum Erstellen interaktiver Web -Apps für semantische Suche über Dokumente), um weitere Einzelheiten zu erhalten.
- precess_pinecone.ipynb <- Beispiel für die Verwendung des Einbettungsmodells vom Azure OpenAI-Dienst, um den Inhalt aus dem Dokument einzubetten und es in die Pnecone-Vektor-Datenbank zu speichern.
- precess_chroma.ipynb <- Beispiel für die Verwendung des Einbettungsmodells vom Azure OpenAI-Dienst, um den Inhalt aus dem Dokument einzubetten und es in die Chroma-Vektor-Datenbank zu speichern.
- Precess_acs.ipynb <- Beispiel für die Verwendung von Einbettungsmodell aus dem Azure OpenAI-Dienst, um den Inhalt aus dem Dokument einzubetten und es in die Azure Cognitive Search Vector-Datenbank zu speichern.
- Consume_pinecone.ipynb <-Beispiel für die Verwendung von Langchain-Frage-Antworten-Modul zur Durchführung von Ähnlichkeitssuche aus der Pnecone-Vektor-Datenbank und verwenden Sie die GPT-3.5 (Text-Davinci-003), um das Ergebnis zusammenzufassen.
- conume_chroma.ipynb <-Beispiel für die Verwendung von Langchain-Fragen-Answer-Modul zur Durchführung von Ähnlichkeitssuche aus der Chroma-Vektor-Datenbank und verwenden Sie die GPT-3.5 (Text-Davin 003), um das Ergebnis zusammenzufassen.
- Consume_acs.ipynb <-Beispiel für die Verwendung von Langchain-Frage-Antworten-Modul zur Durchführung einer Ähnlichkeitssuche aus der Azure Cognitive Search Vector-Datenbank und verwenden Sie die GPT-3.5 (Text-Davinci-003), um das Ergebnis zusammenzufassen.
- app_pinecone.py <- Beispiel für die Verwendung von Streamlit-, Langchain- und Pinecone-Vektor-Datenbank, um einen interaktiven Chatbot zu erstellen, um die semantische Suche über Dokumente zu erleichtern. Es verwendet das GPT-3,5-Turbo-Modell vom Azure OpenAI-Service für die Zusammenfassung und Chat.
- app_chroma.py <- Beispiel für die Verwendung von Streamlit-, Langchain- und Chroma-Vektor-Datenbank, um einen interaktiven Chatbot zu erstellen, um die semantische Suche über Dokumente zu erleichtern. Es verwendet das GPT-3,5-Turbo-Modell vom Azure OpenAI-Service für die Zusammenfassung und Chat.
- app_acs.py <- Beispiel für die Verwendung von Streamlit-, Langchain- und Azure Cognitive Suchvektor-Datenbank, um einen interaktiven Chatbot zu erstellen, um die semantische Suche über Dokumente zu erleichtern. Es verwendet das GPT-3,5-Turbo-Modell vom Azure OpenAI-Service für die Zusammenfassung und Chat.
Um diese streamlitische Web -App auszuführen
streamlit run app_pinecone.py
Hochrangige Architektur und Fluss dieser semantischen Suche über Dokumente Demo 
Genießen!