chat with pennsieve - chat with pennsieve Descargar

chat with pennsieve

Otro código fuente

1.0.0

Descargar

Chatear con Pennsieve

Descripción del proyecto

Este es el componente del proyecto de investigación desarrollado bajo la guía del Dr. Zachary Ives. El objetivo inicial es desarrollar una capa gráfica sobre la base de datos Pennsieve y permitir el aprendizaje automático a través de la extracción de datos efectivos de datos médicos de formatos de archivo complejos y versátiles. Este componente permite la interacción del lenguaje natural con la base de datos.

Nota : Todos los métodos se implementaron en el gráfico subyacente construido en NEO4J utilizando otro repositorio que se vinculará una vez que sea público. Sin embargo, este proyecto está listo para usarse fuera de la caja, sin el gráfico subyacente completado, no obtendrá ningún resultado.

Estructura de proyectos

aplicación/

__init__.py : inicializa el paquete de aplicaciones.
- Propósito : marca el directorio como un paquete Python. Agregue las importaciones de nivel de paquete aquí si es necesario.
config.py : maneja las variables de configuración y entorno.
- Propósito : Carga las variables de entorno y define la configuración de la configuración.
- Mejoras : Implemente el manejo de errores para las variables de entorno faltantes si es necesario.
database.py : administra la conexión de base de datos NEO4J.
- Propósito : La función setup_neo4j_graph() devuelve un gráfico Neo4J configurado con URL, nombre de usuario y contraseña proporcionados en el archivo .env .
- Documentación : setup_neo4j_graph() Devuelve el contenedor de base de datos Langchain Neo4J. Métodos importantes utilizados: query() y refresh_schema() . Documentación de Langchain Neo4JGraph
main.py : punto de entrada de la aplicación. Pase la consulta del usuario y recupera el resultado llamando run_query(user_query: str) desde qa_chain.py . Abraza todas las complejidades y proporciona una interfaz simple para interactuar con el sistema.
dataguide.py : extrae rutas de Dataguide de la base de datos y las formatea en rutas Cypher.
- Métodos :
  1. extract_dataguide_paths(graph: Neo4jGraph) : extrae rutas dataguide de raíz a hoja utilizando una consulta Cypher.
  2. format_paths_for_llm(results: List[Dict[str, Any]]) : los resultados de los formatos de extract_dataguide_paths en rutas de Cypher válidas para consultas de coincidencias.
test.py : prueba la conexión con el gráfico Neo4J, la extracción de rutas dataguide y formatearlas. Emite el tiempo tomado para cada parte.
- Mejoras : agregue pruebas unitarias o pruebe otros métodos manualmente.
prompt_generator.py : este módulo es responsable de crear y combinar el sistema Langchain y las indicaciones humanas en langchain.prompts.ChatPromptTemplate . Es una parte crucial del proyecto, ya que define cómo las indicaciones se estructuran y se usan en el marco Langchain.
- Métodos :
  - get_cypher_prompt_template() : este método devuelve la instancia ChatPromptTemplate creada en este archivo. Combina el sistema y las indicaciones humanas en una sola plantilla que se puede utilizar para generar consultas Cypher de GraphCypherQAChain en qa_chain.py .
- Documentación :
  - PractTeMplate: esta clase se usa para definir la estructura de las indicaciones. Los parámetros principales utilizados son input_variables , que especifican las variables que se incluirán en el mensaje y template , que define el texto del aviso.
  - SystemMessagePromptTemplate: esta clase se utiliza para crear mensajes del sistema en el mensaje. El parámetro primario utilizado es prompt , que define el texto del mensaje del sistema.
  - HumanMessagePromptTemplate: esta clase se usa para crear mensajes humanos en la solicitud. El parámetro primario utilizado es prompt , que define el texto del mensaje humano.
  - ChatPromptTemplate: esta clase combina el sistema y los mensajes humanos en un solo mensaje de chat. El método principal utilizado es from_messages() , que toma una lista de plantillas de mensajes y las combina en un mensaje de chat.
qa_chain.py : Define la función run_query(user_query: str) , que integra todos los componentes del proyecto y ejecuta un GraphCypherQAChain en la consulta del usuario.
- Documentación :
  - Graphcypherqachain
  - Chatopenai
  - Nota: Reemplace ChatOpenAI con Azurechatopenai si es necesario.

rutas_vectordb/

__init__.py : inicializa el paquete de aplicaciones.
- Propósito : marca el directorio como un paquete Python. Agregue las importaciones de nivel de paquete aquí si es necesario.
generate_descriptions.py : Define la solicitud del sistema para generar descripciones de LLM para rutas Cypher.
- Métodos :
  - generate_path_descriptions(all_paths: List[str]) : genera descripciones para las rutas dadas usando el LLM. Emite una lista de descripciones.
  - generate_embedding(path_description: str) : genera incrustaciones para la descripción de la ruta dada usando la API de incrustaciones de OpenAI.
- Documentación : Openaiembeddings
random_path_generator.py : proporciona métodos para generar rutas aleatorias a partir de la base de datos y formatearlas en rutas Cypher.
vectorDB_setup.py : proporciona métodos para iniciar el contenedor de Milvus, conectarse con él, definir el esquema de recolección, crear recopilación, insertar datos y realizar búsquedas de similitud vectorial.
- Documentación : Pymilvus
main.py : Funciones de envoltura que combinan todas las funcionalidades de este directorio. Por ejemplo, get_similar_paths_from_milvus se usa en app/qa_chain.py para realizar una búsqueda de similitud vectorial con consultas de usuario.
test.py : Métodos para probar diversas funcionalidades. Actualmente comentado.
- Mejoras : agregue pruebas unitarias o métodos de prueba manualmente.
write_read_data.py : métodos simples de escritura y lectura para almacenar rutas y descripciones de Cypher generadas a partir de llamadas API.
- Propósito : Ayuda con el análisis y el ahorro de costos de API. El método fill_collection_with_random_paths en paths_vectorDB/main.py escribe las rutas y descripciones generadas a partir de llamadas API en data.txt .

Directorio raíz

env.sample : haga una copia de esto en su directorio raíz de proyecto y cambie el nombre a .env . Completar los valores.
.gitignore : especifica archivos y directorios que serán ignorados por Git.
README.md : Documentación del proyecto.
docker-compose.yml : archivo Docker para Milvus DB. Si hay una nueva versión, reemplace este archivo. Asegúrese de que se denomina docker-compose.yml y se coloque en el directorio raíz.
requirements.txt : dependencias de Python y sus versiones compatibles utilizadas para el desarrollo. NOTA: El archivo requirements.txt se creó a través de pipenv .

Empezando

Requisitos previos

Python 3.8+
Estibador
Base de datos Neo4J Desktop y Neo4J llena de gráfico y dataguide (el código para esto se vinculará pronto)

Instalación

Comenzar con este proyecto es simple. Puede seguir los pasos a continuación:

Clon el repositorio :
```
git clone https://github.com/hussainzs/chat-with-pennsieve.git
cd project_root
```
Nota: Asegúrese de estar en el Directorio Root del Proyecto antes de continuar con los próximos pasos.
Instalar dependencias :
```
pip install -r requirements.txt
```
Configurar variables de entorno :
- Copie env.sample y cambie el nombre del archivo a .env y complete los valores requeridos.
Configurar el escritorio neo4j :
- Descargue e instale el escritorio Neo4j.
- Tenga en cuenta la URL, el nombre de usuario y la contraseña para la base de datos NEO4J que contiene el gráfico y la dataguide.
- Actualice el archivo .env con los detalles de conexión Neo4J (URL, nombre de usuario, contraseña). Los valores predeterminados se han completado.
Ejecutar app/main.py :
- Navegue al directorio app y ejecute main.py Asegúrese de que la consulta de usuario deseada se pase como argumento a la función run_query(user_query) .
- Asegúrese de tener docker-compose.yml en el directorio raíz. Cuando ejecuta App/Main.py, los contenedores de Milvus comenzarán automáticamente ejecutando comandos de terminal. Consulte paths_vectorDB/vectorDB_setup.py para obtener más información.
- Nota : Cuando el contenedor de Milvus se crea la primera vez, descarga y crea una nueva carpeta en el directorio raíz llamado volumes . La carpeta contiene 3 subcarpetas: milvus , minio y etcd .
- Para obtener más información, consulte: Ejecute Milvus usando Docker Compose

Nota : Para una mayor aclaración de la salida esperada cuando ejecuta app/main.py , estoy conectando 2 PDF de salida generados desde el sistema en la carpeta llamadas salidas esperadas .

El archivo llamado first_output.pdf muestra lo que se espera cuando el usuario ejecuta la app/main.py por primera vez en una nueva sesión con valores predeterminados. (Cuando lo ejecuta por primera vez, puede llevar un tiempo descargar todo)
El regular_output.pdf muestra lo que se espera cuando el usuario ejecuta la app/main.py en una sesión regular con valores predeterminados.

Mejoras recomendadas

Mejorar las indicaciones del sistema : mejorar las indicaciones tanto en app como en paths_vectorDB puede mejorar significativamente el rendimiento de LLM. Fui testigo de que los ejemplos de alta calidad en el aviso del sistema aumentarán la calidad de la generación de descripción para las rutas. El indicador del sistema también afecta significativamente la respuesta final de LLM.
Optimizar el contexto para LLM : en lugar de enviar todas las rutas de datos de datos, envíe las 10 rutas relacionadas principales desde el DB de Milvus Vector para reducir los costos de API y potencialmente mejorar el rendimiento. Las indicaciones largas del sistema pueden aumentar la alucinación y confunde LLM, consulte este documento para obtener más información: Perdido en el medio: cómo los modelos de idiomas usan contextos largos
Actualizar MILVUS : instale la última versión de Milvus y cambie la métrica de similitud desde "IP" (producto interno) para cosinar en el método search_similar_vectors dentro de paths_vectorDB/vectorDB_setup.py para obtener mejores resultados.
Cree una interfaz de usuario de chat : use Strewlit o su biblioteca de interfaz de usuario favorita para crear una interfaz de usuario básica para este proyecto. Puede usar FastAPI para crear una API simple para enviar consultas de usuario y recibir respuestas de app/main.py.
Agregue la capacidad de conversación : permita las interacciones de seguimiento para guiar a la LLM para una mejor generación de rutas, aunque esto puede aumentar los costos de API. Noté que a menudo cuando LLM estaba equivocado, solo estaba desactivado por un poco en su generación de caminos. Alguien con conocimiento de dominio del gráfico subyacente puede corregirlo fácilmente con un seguimiento básico.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-06-01
tamaño 7.67MB
Proviene de Github

Aplicaciones relacionadas

huanhuan chat

2024-11-10
Subir con carretilla

2022-08-26
Carrera con Ryan

2022-08-21
Pájaros con sentimientos

2022-07-26
Desarrollo web ágil con Rails 2nd

2009-06-02
Desarrollo web ágil con el código fuente Rails que acompaña al libro

2009-06-02

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo