Téléchargement de strwythura - Téléchargement du code source strwythura

strwythura

Autre code source

1.0.0

Télécharger

Graphgeeks.org Talk 2024-08-14

Comment construire des graphiques de connaissances à partir de sources de données non structurées.

Événement: https://live.zoho.com/pbob6fvr6c
Vidéo: https://youtu.be/b6_nfvql-be
Diapositives: https://derwen.ai/s/2njz#1

Caveat: ce dépôt fournit le code source et les cahiers qui accompagnent un tutoriel pédagogique; Il n'est pas destiné à une bibliothèque ou un produit de package.

Installation

python3 -m venv venv
source venv/bin/activate
python3 -m pip install -U pip wheel
python3 -m pip install -r requirements.txt

Demo de course

L'application de démonstration complète est dans demo.py :

python3 demo.py

Cette démonstration arrache des sources de texte à partir d'articles sur la liaison entre la démence et la viande rouge transformée régulièrement, puis produit un graphique à l'aide de NetworkX , une base de données vectorielle de Text Chunk incorporeds utilisant LanceDB et un modèle d'intégration d'entité utilisant gensim.Word2Vec , où les résultats sont:

data/kg.json - sérialisation du graphique NetworkX
data/lancedb - Tables de base de données vectorielles
data/entity.w2v - modèle d'intégration d'entité
kg.html - Visualisation du graphique interactif dans PyVis

Explorer les cahiers

Une collection de cahiers de jupyter illustre des étapes importantes dans ce workflow:

./venv/bin/jupyter-lab

Partie 1: construct.ipynb - Construction détaillée de KG à l'aide d'un graphique lexical
Partie 2: chunk.ipynb - Exemple simple de la façon de gratter et de faire des morceaux de texte
Partie 3: vector.ipynb - Tableau de requête LancedB pour les intégres de texte (après avoir exécuté demo.py )
Partie 4: embed.ipynb - interroger le modèle d'intégration d'entité (après avoir exécuté demo.py )

Processus généralisé et dégroupé

Objectif: Construire un graphique de connaissances (kg) à l'aide de bibliothèques open source où les modèles d'apprentissage en profondeur fournissent des solutions ponctuelles étroitement axées pour générer des composants pour un graphique: nœuds, bords, propriétés.

Ces étapes définissent un processus généralisé, où ce tutoriel reprend au graphique lexical :

Recouvrement sémantique:

Chargez tous les vocabulaires contrôlés prédéfinis directement dans le kg

Graphique de données:

Chargez les sources de données structurées ou les mises à jour dans un graphique de données
Effectuer une résolution d'entité (ER) sur PII extrait du graphique de données
Utilisez les résultats ER pour générer une superposition sémantique comme "épine dorsale" pour le KG

Graphique lexical:

Analyser les morceaux de texte, en utilisant la lemmatisation pour normaliser les travaux de jeton
Construisez un graphique lexical à partir d'arbres d'analyse, par exemple, à l'aide d'un algorithme TextGraph
Analyser la reconnaissance des entités nommées (NER) pour extraire des entités candidates de NP Spans
Analyser l'extraction des relations (RE) pour extraire les relations entre les entités par paires
Effectuer des entités liant (EL) Tire en tirant les résultats des urgences
Promouvoir les entités et les relations extraites jusqu'à la superposition sémantique

Cette approche contraste avec l'utilisation d'un modèle grand langage (LLM) comme une approche unique s'adapte à toute approche "Black Box" pour générer le graphique entier automatiquement. Les approches de la boîte noire ne fonctionnent pas bien pour les pratiques KG dans des environnements réglementés, où les audits, les explications, les preuves, la provenance des données, etc., sont nécessaires.

Mieux encore, passez en revue les résultats intermédiaires après chaque étape d'inférence pour collecter la rétroaction humaine pour conserver les composants KG, par exemple, en utilisant Argilla .

Les KG utilisés dans les applications critiques telles que les enquêtes reposent généralement sur les mises à jour, pas un processus de construction en une étape. En produisant un kg basé sur les étapes ci-dessus, les mises à jour peuvent être gérées plus efficacement. Les applications en aval telles que Graph Rag pour la mise à la terre que les résultats LLM bénéficieront également d'une meilleure qualité de données.