Descarga de strwythura - Descarga del código fuente de strwythura

strwythura

Otro código fuente

1.0.0

Descargar

Graphgeeks.org Talk 2024-08-14

Cómo construir gráficos de conocimiento a partir de fuentes de datos no estructuradas.

Evento: https://live.zoho.com/pbob6fvr6c
Video: https://youtu.be/b6_nfvql-be
Diapositivas: https://derwen.ai/s/2njz#1

Advertencia: este repositorio proporciona el código fuente y los cuadernos que acompañan un tutorial de instrucción; No se pretende como una biblioteca o producto de paquetes.

Configuración

python3 -m venv venv
source venv/bin/activate
python3 -m pip install -U pip wheel
python3 -m pip install -r requirements.txt

CORRA DEMO

La aplicación de demostración completa está en demo.py :

python3 demo.py

Esta demostración raspa las fuentes de texto de los artículos sobre el enlace entre la demencia y la alimentación regularmente de carne roja procesada, luego produce un gráfico usando NetworkX , una base de datos vectorial de incrustaciones de la fragmentación de texto utilizando LanceDB y un modelo de incrustación de entidad usando gensim.Word2Vec , donde los resultados son:

data/kg.json - Serialización del gráfico NetworkX
data/lancedb - tablas de base de datos vectoriales
data/entity.w2v - modelo de incrustación de entidad
kg.html - Visualización de gráficos interactivos en PyVis

Explorar cuadernos

Una colección de cuadernos Jupyter ilustran pasos importantes dentro de este flujo de trabajo:

./venv/bin/jupyter-lab

Parte 1: construct.ipynb - construcción detallada de kg utilizando un gráfico léxico
Parte 2: chunk.ipynb - Ejemplo simple de cómo raspar y fragmentar el texto
Parte 3: vector.ipynb - Consulta LancedB Tabla para incrustaciones de la fragmentos de texto (después de ejecutar demo.py )
Parte 4: embed.ipynb : consulte el modelo de incrustación de entidad (después de ejecutar demo.py )

Proceso generalizado y desagradable

Objetivo: Construya un gráfico de conocimiento (kg) utilizando bibliotecas de código abierto donde los modelos de aprendizaje profundo proporcionan soluciones de punto centradas de manera estrecha para generar componentes para un gráfico: nodos, bordes, propiedades.

Estos pasos definen un proceso generalizado, donde este tutorial se acelera en el gráfico léxico :

Superposición semántica:

Cargue cualquier vocabularios controlados predefinidos directamente en el KG

Gráfico de datos:

Cargue las fuentes de datos estructuradas o las actualizaciones en un gráfico de datos
Realizar resolución de entidad (ER) en PII extraída del gráfico de datos
Use los resultados de ER para generar una superposición semántica como una "columna vertebral" para el KG

Gráfico léxico:

Analice los trozos de texto, usando lemmatización para normalizar los tramos de token
Construya un gráfico léxico a partir de árboles de análisis, por ejemplo, utilizando un algoritmo TextGraph
Analice el reconocimiento de entidad nombrado (NER) para extraer entidades candidatas de los tramos de NP
Analizar la extracción de relaciones (RE) para extraer relaciones entre entidades por pares
realizar la vinculación de la entidad (EL) aprovechando los resultados de la sala de emergencias
promover las entidades y relaciones extraídas hasta la superposición semántica

Este enfoque contrasta con el uso de un modelo de lenguaje grande (LLM) ya que un enfoque de "caja negra" de talla única para generar todo el gráfico automáticamente. Los enfoques de caja negra no funcionan bien para las prácticas de KG en entornos regulados, donde se requieren auditorías, explicaciones, evidencia, procedencia de datos, etc.

Mejor aún, revise los resultados intermedios después de cada paso de inferencia para recopilar comentarios humanos para curar los componentes de KG, por ejemplo, usando Argilla .

Los KG utilizados en aplicaciones de misión crítica, como las investigaciones, generalmente dependen de las actualizaciones, no en un proceso de construcción de un solo paso. Al producir un KG basado en los pasos anteriores, las actualizaciones se pueden manejar de manera más efectiva. Las aplicaciones aguas abajo, como Graph Rag para la base, los resultados de LLM también se beneficiarán de una mejor calidad de datos.