Dieses Projekt ist ein Konversationsagent, der Langchain, OpenAI API und das Konzept von Rag (Abruf-Augmented Generation) nutzt. Der Agent soll lange PDF -Dokumente lesen, verschiedene Komponenten wie Text, Bilder und Tabellen extrahieren und in einer Vektor -Datenbank für effiziente Abruf während der Konversationen mit Benutzern speichern.
PDF -Verarbeitung : Der Agent kann Informationen aus langen PDF -Dokumenten analysieren und extrahieren.
Multimodale Extraktion : Extrahiert Text, Bilder und Tabellen aus PDFs für ein umfassendes Verständnis.
Vektordatenbank : Verwendet eine Vektordatenbank, um Informationen effizient zu speichern und abzurufen.
Konversations -KI : Implementiert das RAG -Konzept, um die Konversationsinteraktionen mit Benutzern zu verbessern.
Wir werden unstrukturiert werden, um Bilder, Text und Tabellen aus Dokumenten (PDFs) zu analysieren.
Wir werden den Multi-Vektor-Retriever mit Chroma verwenden, um Rohtext und Bilder zusammen mit ihren Zusammenfassungen zum Abrufen zu speichern.
Wir werden GPT-4V sowohl für die Bildübersicht (für das Abrufen) als auch für die endgültige Antwortsynthese aus der Join-Überprüfung von Bildern und Texten (oder Tabellen) verwenden.
Langchain <- Besuchen Sie hier, um die Langchain-Installation zu verstehen
OpenAI API <- Anweisungen zum Einrichten und Verwenden von OpenAI-API.
CHROMA DB <- Anweisungen zum Einrichten und Verwenden der Vektor-Datenbank.
Geben Sie den Pfad zur Quelle PDF an
Ändern Sie den Eingabeaufforderungs nach Ihren Bedürfnissen.
Ersetzen Sie Ihre Fragen in der Abfragelinie.
Der Agent verwendet die gespeicherten Informationen für intelligente Antworten.
Abruf
Das Abrufen erfolgt auf der Grundlage der Ähnlichkeit mit Bildzusammenfassungen sowie auf Textbrocken. Dies erfordert eine sorgfältige Überlegung, da das Abruf von Bild fehlschlagen kann, wenn konkurrierende Textbrocken vorhanden sind. Um dies zu mildern, produziere ich größere Textbrocken (4K -Token) und fasse sie zum Abrufen zusammen.
Bildgröße
Die Qualität der Antwortsynthese scheint erwartungsgemäß empfindlich gegenüber Bildgröße zu sein. Ich werde bald Evals machen, um dies genauer zu testen.
Dieses Projekt ist unter der MIT -Lizenz lizenziert.