Этот проект является разговорным агентом, который использует концепцию Langchain, OpenAI API и тряпку (поколение поиска. Агент предназначен для чтения длинных документов PDF, извлечения различных компонентов, таких как текст, изображения и таблицы, и хранить их в векторной базе данных для эффективного поиска во время разговоров с пользователями.
Обработка PDF : агент способен анализировать и извлекать информацию из длинных документов PDF.
Многомодальная экстракция : извлекает текст, изображения и таблицы из PDFS для полного понимания.
Векторная база данных : использует векторную базу данных для эффективного хранения и извлечения информации.
Разговорной ИИ : реализует концепцию RAG, чтобы улучшить разговорные взаимодействия с пользователями.
Мы будем использовать неструктурированную для анализа изображений, текста и таблиц из документов (PDF).
Мы будем использовать ретривер с несколькими векторами с Chroma для хранения необработанного текста и изображений, а также их резюме для поиска.
Мы будем использовать GPT-4V как для суммирования изображений (для поиска), а также синтез окончательного ответа из обзора Join обзора изображений и текстов (или таблиц).
Langchain <- Посетите здесь, чтобы понять установку Langchain
OpenAI API <- Инструкции по настройке и использованию API OpenAI.
Chroma db <- Инструкции по настройке и использованию векторной базы данных.
Обеспечить путь к источнику PDF
Измените rasfor_text в соответствии с вашими потребностями.
Замените свои вопросы в линии запроса.
Агент будет использовать хранимую информацию для интеллектуальных ответов.
Поиск
Поиск выполняется на основе сходства с резюме изображений, а также на текстовых кусках. Это требует некоторого тщательного рассмотрения, потому что поиск изображения может потерпеть неудачу, если есть конкурирующие текстовые куски. Чтобы смягчить это, я производил более крупные (4K токен) текстовые куски и суммирую их для поиска.
Размер изображения
Качество синтеза ответа, по -видимому, чувствительно к размеру изображения, как и ожидалось. Я скоро сделаю Evals, чтобы проверить это более тщательно.
Этот проект лицензирован по лицензии MIT.