Добро пожаловать в трубопровод, отвечающий на вопрос с Vectordb и крупными языковыми моделями (LLM). Этот проект направлен на создание эффективного и масштабируемого конвейера для вопросов, отвечающих на задачи с использованием CHROMADB, которая представляет собой векторную базу данных с открытым исходным кодом, в сочетании с LLAMA2, которая также является моделью крупного языка с открытым исходным кодом (LLM).
Пользовательский ввод: Пользователи предоставляют текстовые источники данных в таких форматах, как .pdf. Эти документы служат основой для получения ответов.
Загрузка документов: для эффективной загрузки и предварительной обработки документов используется документ Langchain.
Document Chunking: загруженные документы разделены на более мелкие, управляемые куски, чтобы повысить эффективность процесса ответа вопросам.
Встроенное хранилище в Vectordb (ChromADB): встроенные куски генерируются и хранятся в ChromADB, основной технологии VectordB, обеспечивая быстрый и точный поиск информации.
Обработка запросов: пользовательские запросы преобразуются в встраивание, что позволяет провести бесшовное сравнение с хранимым документом.
Поиск векторной базы данных: Vectordb запрашивается с помощью сгенерированных внедрений для получения соответствующих кусков информации, оптимизируя процесс ответа вопросам.
Обработка LLM (LLAMA2): Полученные встраивания передаются в LLAMA2, LLM, который генерирует контекстные и точные ответы на запросы пользователей.
Чтобы начать трубопровод для вопросов, пользователи должны предоставить свои текстовые источники данных в поддерживаемых форматах (в настоящее время поддерживается формат: PDF, CSV, HTML, XLSX, DOCX, XML, JSON ). Следуйте следующему разделу, чтобы обеспечить правильную установку и конфигурацию зависимостей.
Следуйте этим шагам, чтобы успешно запустить трубопровод для вопросов:
Установите зависимости: убедитесь, что у вас установлены все необходимые зависимости. Запустите следующие команды в ноутбуке:
!pip install langchain
!pip install PyPDF
!pip install sentence_transformers
!pip install chromadb
!pip install accelerate
!pip install bitsandbytes
!pip install jq
!pip install unstructured
Настройте параметры:
Откройте ноутбук и найдите следующие параметры:
JQ_SCHEMA: Настройте этот параметр в соответствии с вашей схемой данных. Определите структуру ваших текстовых данных для правильной загрузки и обработки.
input_path: укажите путь к своему источнику текстового данного данных, такого как файл .pdf. Убедитесь, что путь правильно установлен в ваш документ.
Объятие токена авторизации лица: обязательно получите токен авторизации от обнимающего лица для загрузки модели Llama2. Этот токен имеет решающее значение для доступа к модели. Установите токен в соответствующем разделе ноутбука.
Запустите ноутбук: запустите ноутбук Jupyter по ячейке Cell. Убедитесь, что каждая ячейка успешно выполняется без ошибок.
Мы приветствуем вклад и отзывы сообщества. Независимо от того, выявляете ли вы проблемы, имеете предложения по улучшению или хотите расширить функциональность, ваш ввод является ценным для нас. Не стесняйтесь вносить свой вклад в проект. Спасибо за изучение нашего проекта.