Ce projet est un agent conversationnel qui exploite le concept Langchain, Openai API et le concept RAG (Retrieval-Augmented Generation). L'agent est conçu pour lire de longs documents PDF, extraire divers composants tels que le texte, les images et les tables, et les stocker dans une base de données vectorielle pour une récupération efficace lors des conversations avec les utilisateurs.
Traitement PDF : l'agent est capable d'analyser et d'extraire des informations à partir de longs documents PDF.
Extraction multimodale : extrait le texte, les images et les tables de PDF pour une compréhension complète.
Base de données vectorielle : utilise une base de données vectorielle pour stocker et récupérer efficacement les informations.
AI conversationnel : implémente le concept de chiffon pour améliorer les interactions conversationnelles avec les utilisateurs.
Nous utiliserons non structuré pour analyser les images, le texte et les tables à partir de documents (PDF).
Nous utiliserons le Retriever multi-vecteur avec Chroma pour stocker du texte brut et des images ainsi que leurs résumés de récupération.
Nous utiliserons GPT-4V pour la résumé d'images (pour la récupération) ainsi que la synthèse de réponse finale à partir de la revue des images et des textes (ou tableaux).
Langchain <- Visitez ici pour comprendre l'installation de Langchain
API OpenAI <- Instructions pour la configuration et l'utilisation de l'API OpenAI.
CHROMA DB <- Instructions pour la configuration et l'utilisation de la base de données vectorielle.
Fournir un chemin vers le PDF source
Modifiez l'invite_text en fonction de vos besoins.
Remplacez vos questions dans la ligne de requête.
L'agent utilisera les informations stockées pour les réponses intelligentes.
Récupération
La récupération est effectuée en fonction de la similitude avec les résumés d'images ainsi que des morceaux de texte. Cela nécessite une attention particulière car la récupération d'image peut échouer s'il y a des morceaux de texte concurrents. Pour atténuer cela, je produise des morceaux de texte plus grands (token 4K) et je les résume pour la récupération.
Taille de l'image
La qualité de la synthèse des réponses semble être sensible à la taille de l'image, comme prévu. Je ferai bientôt des évaux pour tester cela plus attentivement.
Ce projet est autorisé sous la licence du MIT.