Este proyecto es un agente de conversación que aprovecha Langchain, Operai API y el concepto RAG (generación de recuperación de recuperación). El agente está diseñado para leer largos documentos PDF, extraer varios componentes, como texto, imágenes y tablas, y almacenarlos en una base de datos vectorial para una recuperación eficiente durante las conversaciones con los usuarios.
Procesamiento PDF : el agente es capaz de analizar y extraer información de documentos PDF largos.
Extracción multimodal : extrae texto, imágenes y tablas de PDF para una comprensión integral.
Base de datos vectorial : utiliza una base de datos vectorial para almacenar y recuperar información de manera eficiente.
AI conversacional : implementa el concepto RAG para mejorar las interacciones conversacionales con los usuarios.
Usaremos imágenes no estructuradas para analizar las imágenes, el texto y las tablas de los documentos (PDF).
Utilizaremos el retriever múltiple con croma para almacenar texto e imágenes en bruto junto con sus resúmenes para la recuperación.
Usaremos GPT-4V tanto para la resumen de imágenes (para la recuperación) como para la síntesis de respuesta final de la revisión de unión de imágenes y textos (o tablas).
Langchain <- Visite aquí para comprender la instalación de Langchain
API OPERAI <- Instrucciones para configurar y usar la API de OpenAI.
Chroma DB <- Instrucciones para configurar y usar la base de datos Vector.
Proporcionar camino a la fuente PDF
Cambie el indic_text de acuerdo con sus necesidades.
Reemplace sus preguntas en la línea de consulta.
El agente utilizará la información almacenada para respuestas inteligentes.
Recuperación
La recuperación se realiza en función de la similitud con los resúmenes de imágenes, así como los trozos de texto. Esto requiere una consideración cuidadosa porque la recuperación de la imagen puede fallar si hay fragmentos de texto en competencia. Para mitigar esto, produzco trozos de texto más grandes (4k token) y los resumo para la recuperación.
Tamaño de imagen
La calidad de la síntesis de respuestas parece ser sensible al tamaño de la imagen, como se esperaba. Haré evals pronto para probar esto con más cuidado.
Este proyecto tiene licencia bajo la licencia MIT.