chat with pennsieve Download - chat with pennsieve Sourced Code Скачать

chat with pennsieve

Другой исходный код

1.0.0

Скачать

Общайтесь с Pennsieve

Описание проекта

Это компонент исследовательского проекта, разработанный под руководством доктора Захари Айвса. Первоначальная цель состоит в том, чтобы разработать слой графика в верхней части базы данных Pennsieve и обеспечить машинное обучение посредством эффективного извлечения данных медицинских данных из сложных и универсальных форматов файлов. Этот компонент обеспечивает взаимодействие естественного языка с базой данных.

ПРИМЕЧАНИЕ . Все методы были реализованы на базовом графике, построенном на NEO4J с использованием другого репозитория, который будет связан, как только он станет общедоступным. Этот проект готов к использованию из коробки, однако без заполненного графа, заполненного вами, не получит никаких результатов.

Структура проекта

приложение/

__init__.py : инициализирует пакет приложений.
- Цель : отмечает каталог как пакет Python. Добавьте здесь импорт на уровне пакета, если это необходимо.
config.py : обрабатывает конфигурацию и переменные среды.
- Цель : загружает переменные среды и определяет настройки конфигурации.
- Улучшения : реализуйте обработку ошибок для отсутствующих переменных среды, если это необходимо.
database.py : управляет подключением базы данных NEO4J.
- Цель : функция setup_neo4j_graph() возвращает график Neo4j, настроенный с URL, именем пользователя и паролем, предоставленным в файле .env .
- Документация : setup_neo4j_graph() возвращает обертку базы данных Langchain Neo4j. Используются важные методы: query() и refresh_schema() . Langchain neo4jgraph документация
main.py : точка входа приложения. Передайте пользовательский запрос и получает результат, позвонив run_query(user_query: str) из qa_chain.py . Он отказывается от всех сложностей и обеспечивает простой интерфейс для взаимодействия с системой.
dataguide.py : извлекает пути DataGuide из базы данных и форматирует их в пути Cypher.
- Методы :
  1. extract_dataguide_paths(graph: Neo4jGraph) : извлекает пути dataaguide от корня в лист, используя запрос Cypher.
  2. format_paths_for_llm(results: List[Dict[str, Any]]) : форматы получают результаты из extract_dataguide_paths в действительные пути Cypher для соответствия запросов.
test.py : тестирует соединение с графом Neo4j, извлечение путей DataGuide и форматирование их. Выводит время, затрачиваемое для каждой части.
- Улучшения : добавьте модульное тестирование или тестируйте другие методы вручную.
prompt_generator.py : Этот модуль отвечает за создание и объединение системы Langchain и человеческих подсказок в langchain.prompts.ChatPromptTemplate . Это важная часть проекта, поскольку он определяет, как подсказки структурированы и используются в рамках Лэнгкейна.
- Методы :
  - get_cypher_prompt_template() : этот метод возвращает экземпляр ChatPromptTemplate , созданный в этом файле. Он объединяет подсказки системы и человека в единый шаблон, который можно использовать для генерации запросов цифр из GraphCypherQAChain в qa_chain.py .
- Документация :
  - Rampletemplate: этот класс используется для определения структуры подсказок. Используемые первичные параметры являются input_variables , в которых указываются переменные, которые должны быть включены в приглашение, и template , который определяет текст подсказки.
  - SystemMessagePromptTemplate: этот класс используется для создания системных сообщений в приглашении. Используемый основной параметр - это prompt , который определяет текст системы системного сообщения.
  - HumanMessagePromptTemplate: Этот класс используется для создания человеческих сообщений в подсказке. Используемый основной параметр - это prompt , который определяет текст сообщения человека.
  - ChatPromptTemplate: Этот класс объединяет системные и человеческие сообщения в одну подсказку в чате. Используемый основной метод - from_messages() , который содержит список шаблонов сообщений и объединяет их в приглашение в чате.
qa_chain.py : Определяет функцию run_query(user_query: str) , которая интегрирует все компоненты проекта и запускает GraphCypherQAChain в пользовательском запросе.
- Документация :
  - Graphcypherqachain
  - ChatoPenai
  - Примечание. При необходимости замените ChatOpenAI на Azurechatopenai.

paths_vectordb/

__init__.py : инициализирует пакет приложений.
- Цель : отмечает каталог как пакет Python. Добавьте здесь импорт на уровне пакета, если это необходимо.
generate_descriptions.py : определяет подсказку системы, чтобы генерировать описания из LLM для путей Cypher.
- Методы :
  - generate_path_descriptions(all_paths: List[str]) : генерирует описания для данных путей, используя LLM. Выводит список описаний.
  - generate_embedding(path_description: str) : генерирует встраивания для данного описания пути, используя API openai embeddings.
- Документация : OpenAieMbeddings
random_path_generator.py : обеспечивает методы для генерации случайных путей из базы данных и форматирования их в путях Cypher.
vectorDB_setup.py : предоставляет методы для запуска контейнера Milvus, подключения с ним, определить схему сбора, создавать сборы, вставить данные и провести поиск сходства вектора.
- Документация : Pymilvus
main.py : оболочка, которые объединяют все функции из этого каталога. Например, get_similar_paths_from_milvus используется в app/qa_chain.py для проведения поиска сходства вектора с помощью пользовательских запросов.
test.py : методы проверки различных функций. В настоящее время прокомментировал.
- Улучшения : добавьте модульные тестирование или методы испытаний вручную.
write_read_data.py : простые методы записи и чтения для хранения путей и описаний цифр и описаний, полученных из вызовов API.
- Цель : Помогает с анализом и экономией затрат API. Метод fill_collection_with_random_paths в paths_vectorDB/main.py записывает пути и описания, сгенерированные из вызовов API в data.txt .

Корневой каталог

env.sample : Сделайте копию этого в вашем каталоге Project Root и переименуйте в .env . Заполните значения.
.gitignore : определяет файлы и каталоги, которые игнорируются git.
README.md : проектная документация.
docker-compose.yml : Docker File для Milvus db. Если есть новая версия, замените этот файл. Убедитесь, что он называется docker-compose.yml и помещен в корневую каталог.
requirements.txt : зависимости от питона и их совместимые версии, используемые для разработки. ПРИМЕЧАНИЕ. Файл requirements.txt был создан через pipenv .

Начиная

Предварительные условия

Python 3.8+
Докер
NEO4J Desktop и база данных NEO4J, заполненные графиком и DataGuide (код для этого скоро будет связан)

Установка

Начать работу с этим проектом просто. Вы можете выполнить шаги ниже:

Клонировать репозиторий :
```
git clone https://github.com/hussainzs/chat-with-pennsieve.git
cd project_root
```
Примечание. Убедитесь, что вы находитесь в каталоге Project Root, прежде чем выполнять следующие шаги.
Установить зависимости :
```
pip install -r requirements.txt
```
Настройка переменных среды :
- Скопируйте env.sample и переименуйте файл в .env и заполните требуемые значения.
Настройка Neo4j Desktop :
- Загрузите и установите настольный компьютер NEO4J.
- Обратите внимание на URL, имя пользователя и пароль для базы данных NEO4J, которая содержит график и DataGuide.
- Обновите файл .env с помощью деталей соединения NEO4J (URL, имя пользователя, пароль). Значения по умолчанию были заполнены.
Запустить приложение/main.py :
- Перейдите к каталогу app и запустите main.py Убедитесь, что ваш желаемый запрос пользователя передается в качестве аргумента функции run_query(user_query) .
- Убедитесь, что у вас есть docker-compose.yml в корневом каталоге. Когда вы запускаете app/main.py, контейнеры Milvus будут автоматически запустить команды терминала. Проверьте paths_vectorDB/vectorDB_setup.py для получения дополнительной информации.
- Примечание . Когда контейнер Milvus создается в первый раз, он загружает и создает новую папку в корневом каталоге с volumes . Папка содержит 3 подпапки: milvus , minio и etcd .
- Для получения дополнительной информации. Проверьте: запустите Milvus с помощью Docker Compose

Примечание . Для дальнейшего разъяснения ожидаемого вывода при запуске app/main.py я прикрепляю 2 PDF -файла вывода, сгенерированных из системы в папке, называемых ожидаемыми выходами .

Файл с именем first_output.pdf показывает, что ожидается, когда пользователь запускает app/main.py впервые в новом сеансе со значениями по умолчанию. (Когда вы запускаете его в первый раз, может потребоваться некоторое время, чтобы загрузить все)
regular_output.pdf показывает, что ожидается, когда пользователь запускает app/main.py в обычном сеансе со значениями по умолчанию.