Загрузка Medical_ChatBot - Medical_ChatBot Source Code Скачать

Medical_ChatBot

Другой исходный код

1.0.0

Скачать

Медицинский чат -бот с Langchain и Pinecone

Этот проект создает медицинский чат -бот, который извлекает информацию из медицинской книги PDF и использует Langchain для обработки и Pinecone для эффективного поиска информации.

Функции

Медицинская база знаний: извлекает и организует медицинскую информацию из книги PDF.
Интеграция Langchain: использует библиотеки Langchain для обработки запросов пользователей и сопоставления их с соответствующей информацией из базы знаний.
- В частности, возможности обработки текстовой обработки Langchain будут использованы для очистки и подготовки медицинского текста для дальнейшего анализа.
Llama2 Entgdings: использует мощную модель Llama2 от обнимающего лица для создания контекстуальных вторжений как для пользовательских, так и для медицинских текстовых фрагментов. Это допускает семантическое сопоставление и поиск соответствующей информации, даже если они сформулированы по -разному.
База данных Vector Vector: хранит сгенерированные встроения в базе данных Vector Pinecone для эффективного поиска. Это обеспечивает быстрый и масштабируемый поиск базы медицинских знаний.
Интерфейс Chatbot: предоставляет удобный интерфейс (текстовый или потенциально голосовой) для пользователей для взаимодействия с чат-ботом и задавать медицинские вопросы.
Дизайн HTML и CSS: интерфейс чата разработан с использованием HTML и стилизованного использования CSS для обеспечения интуитивно понятного и визуально привлекательного пользовательского опыта.
Бэкэнд Flask: Бэкэнд приложения создается с использованием Flask, легкой веб -структуры для Python, для обработки запросов пользователей и взаимодействия с чатботом.
Обмен сообщениями в реальном времени: пользователи могут общаться с чатботом в режиме реального времени, получая мгновенные ответы на свои запросы.

Технический стек

Langchain: Рабочие процессы Python для обработки естественного языка (NLP), предлагая модули для обработки текста, генерации внедрения и поиска информации.
Обнимание трансформаторов лица: обеспечивает доступ к предварительно обученным моделям NLP, таким как Llama2 для создания контекстуальных вторжений.
Pinecone: служба векторной базы данных, обеспечивающая эффективное хранение и извлечение высокоразмерных данных, таких как Entceddings.
Дополнительные библиотеки: в зависимости от выбранного интерфейса (на основе текста или голоса), дополнительные библиотеки, такие как NLTK или Spacy, могут использоваться для дальнейшей обработки текста и функциональности чат-бота.
Колба: легкая веб -структура для Python, используемая для разработки интерфейса Chatbot и обработки запросов пользователей.

Рабочий процесс

Создание базы знаний:

 from langchain_community . embeddings import HuggingFaceEmbeddings
from langchain_community . document_loaders import PyPDFLoader
from langchain . text_splitter import RecursiveCharacterTextSplitter

def create_knowledge_base ( pdf_path ):
  # Load PDF text
  loader = PyPDFLoader ( pdf_path , glob = "*.pdf" )
  text_data = loader . load ()

  # Text processing and chunking
  text_splitter = RecursiveCharacterTextSplitter ( chunk_size = 500 , chunk_overlap = 20 )
  text_chunks = text_splitter . split_documents ( text_data )

  # Download Llama2 embeddings (or your chosen model)
  embeddings = HuggingFaceEmbeddings ( model_name = "sentence-transformers/all-MiniLM-L6-v2" )

  # Generate embeddings for each text chunk
  # ... (code to generate embeddings for each chunk using embeddings object)

  # Store text chunks and embeddings in a data structure (e.g., list of dictionaries)
  knowledge_base = []
  for i , chunk in enumerate ( text_chunks ):
    chunk_embedding = embeddings . encode ( chunk )  # Generate embedding for the chunk
    knowledge_base . append ({
      "text" : chunk ,
      "embedding" : chunk_embedding
    })
  return knowledge_base

Интеграция Pinecone:

 from langchain_pinecone import PineconeVectorStore
from pinecone . data . index import Index
from dotenv import load_dotenv
import os

def store_knowledge_base_in_pinecone ( knowledge_base ):
  load_dotenv ()
  PINECONE_API_KEY = os . getenv ( "PINECONE_API_KEY" )
  PINECONE_ENV = os . getenv ( "PINECONE_ENV" )
  PINECONE_INDEX_NAME = os . getenv ( "PINECONE_INDEX_NAME" )

  # Connect to Pinecone
  pc = pinecone . Pinecone ( api_key = PINECONE_API_KEY , environment = PINECONE_ENV )
  index = pc . Index ( PINECONE_INDEX_NAME )

  # Extract text and embeddings from knowledge base
  text_data = [ kb [ "text" ] for kb in knowledge_base ]
  embeddings = [ kb [ "embedding" ] for kb in knowledge_base ]

  # Store embeddings in Pinecone
  PineconeVectorStore . from_documents ( text_data , embeddings , index_name = PINECONE_INDEX_NAME )

  print ( f"Knowledge base stored in Pinecone index: { PINECONE_INDEX_NAME } " )

Интерфейс чатбота (заполнитель):

 # This section is a placeholder as the full chatbot development requires additional libraries
# like Rasa or Dialogflow. Here's a basic outline to illustrate the concept.

def chatbot_loop ():
  while True :
    user_query = input ( "Ask me a medical question (or type 'quit' to exit): " )
    if user_query . lower () == "quit" :
      break

    # Process user query (similar to text processing in knowledge base creation)
    processed_query = # (code to clean and process the user query)

    # Generate embedding for the user query
    query_embedding = embeddings . encode ( processed_query )

    # Retrieve similar text snippets from Pinecone using query embedding
    similar_results = retrieve_from_pinecone ( query_embedding )

    # Extract and present relevant information to the user
    if similar_results :
      for result in similar_results :
        print ( f"Relevant Information: { result [ 'text' ] } " )
    else :
      print ( "Sorry, I couldn't find any information related to your question." )

Преимущества

Улучшенный доступ к медицинской информации: пользователи могут легко получить доступ и понимать медицинскую информацию из книги PDF через удобный интерфейс.
Семантический поиск: встраивание Llama2 позволяет более точно извлекать соответствующую информацию, даже когда пользовательские запросы сформулированы иначе, чем фактический текст в книге.
Масштабируемость: Pinecone позволяет эффективно поиск информации по мере роста базы знаний.

Дальнейшие соображения

Медицинский отказ от ответственности: крайне важно четко заявить, что этот чат -бот предназначен только для информационных целей и не должен использоваться в качестве замены профессиональных медицинских советов. Пользователи всегда должны консультироваться с работником здравоохранения для диагностики и лечения.
Безопасность данных: Убедитесь, что правильные меры безопасности реализованы при обработке и хранении медицинской информации.
Выбор модели: Хотя LLAMA2 является мощной моделью, рассмотрите возможность изучения других моделей, специфичных для медицинской области, обнимающего лица, которые могут лучше подходить для конкретной медицинской информации в книге PDF.
Разработка чат -ботов: разработка надежного интерфейса чатбота требует дополнительных библиотек, таких как RASA или Dialogflow для обработки потока разговоров и понимания естественного языка.

Этот проект демонстрирует потенциал Langchain и Pinecone в создании медицинского чат -бота, который предлагает доступный и эффективный способ доступа и понимания медицинской информации. Не забудьте адаптировать и расширить эту концепцию, чтобы соответствовать конкретным потребностям вашей медицинской книги PDF и желаемых функций.

Установка

Чтобы настроить проект Langchain Pinecone Vector Store, выполните следующие действия:

Клонировать репозиторий:

git clone https://github.com/ < username > / < repository > .git
cd < repository >

Установить зависимости:
```
pip install -r requirements.txt
```
Настройка переменных среды:
Создайте файл .env в корневом каталоге и укажите следующие переменные:
```
 PINECONE_API_KEY=<your_pinecone_api_key>
PINECONE_ENV=<pinecone_environment>
PINECONE_INDEX_NAME=<pinecone_index_name>
```

Использование

Для хранения векторов в базе данных Vector Pinecone выполните следующую команду:

python store_vectors.py

Внося

Вклад в проект Vector Store Langchain Pinecone Project рекомендуется и ценится! Если у вас есть идеи для улучшений, исправлений ошибок или новых функций, пожалуйста, отправьте запрос на привлечение. Обязательно следуйте руководящим принципам взноса, изложенным в репозитории.

Лицензия

Этот проект лицензирован по лицензии MIT, которая позволяет неограниченное использование, распределение и модификацию при условии условий, указанных в лицензионном соглашении.

Расширять

Дополнительная информация