strwythura Download - strwythura Source Code Download

strwythura

Anderer Quellcode

1.0.0

Herunterladen

Graphgeeks.org Talk 2024-08-14

So konstruieren Sie Wissensdiagramme aus unstrukturierten Datenquellen.

Ereignis: https://live.zoho.com/pbob6fvr6c
Video: https://youtu.be/b6_nfvql-be
Folien: https://derwen.ai/s/2njz#1

Vorbehalt: Dieses Repo enthält den Quellcode und Notizbücher, die ein Anleitungs -Tutorial begleiten. Es ist nicht als Paketbibliothek oder als Produkt gedacht.

Aufstellen

python3 -m venv venv
source venv/bin/activate
python3 -m pip install -U pip wheel
python3 -m pip install -r requirements.txt

Demo laufen

Die vollständige Demo -App befindet sich in demo.py :

python3 demo.py

Diese Demo kratzt Textquellen aus Artikeln über die Verknüpfung zwischen Demenz und regelmäßig essen verarbeitetes rotes Fleisch und erzeugt dann ein Diagramm mit NetworkX , einer Vektordatenbank mit Text -Chunk -Einbettungen unter Verwendung von LanceDB und einem Einbettungsmodell mit gensim.Word2Vec , wobei die Ergebnisse sind:

data/kg.json - Serialisierung von NetworkX -Graphen
data/lancedb - Vektor -Datenbanktabellen
data/entity.w2v - Einbettungsmodell für Entität
kg.html - Interaktive Graph Visualisierung in PyVis

Notizbücher erkunden

Eine Sammlung von Jupyter -Notizbüchern veranschaulicht wichtige Schritte in diesem Workflow:

./venv/bin/jupyter-lab

Teil 1: construct.ipynb - detaillierte KG -Konstruktion unter Verwendung eines lexikalischen Diagramms
Teil 2: chunk.ipynb - Einfaches Beispiel dafür
Teil 3: vector.ipynb - Abfrage LancyB Tabelle für Text -Chunk -Einbettungen (nach dem Ausführen von demo.py )
Teil 4: embed.ipynb - Fragen Sie das Einbettungsmodell des Entität ab (nach Ausführen von demo.py )

Verallgemeinerter, ungebundener Prozess

Ziel: Konstruieren Sie ein Knowledge Graph (KG) mit Open-Source-Bibliotheken, in dem Deep-Learning-Modelle eng angelegte Punktlösungen bereitstellen, um Komponenten für ein Diagramm zu generieren: Knoten, Kanten, Eigenschaften.

Diese Schritte definieren einen verallgemeinerten Prozess, bei dem dieses Tutorial im lexikalischen Diagramm aufnimmt:

Semantische Überlagerung:

Laden Sie alle vordefinierten kontrollierten Vokabulare direkt in den KG

Datendiagramm:

Laden Sie die strukturierten Datenquellen oder -aktualisierungen in ein Datendiagramm
Führen Sie Entity Resolution (ER) auf PII aus, die aus dem Datendiagramm extrahiert wurden
Verwenden Sie ER -Ergebnisse, um eine semantische Overlay als "Rückgrat" für den KG zu generieren

Lexikalische Grafik:

Analysieren Sie die Textbrocken und verwenden Sie die Lemmatisierung, um die Token -Spannen zu normalisieren
Konstruieren Sie einen lexikalischen Diagramm aus analysierten Bäumen, z. B. unter Verwendung eines Textgraph -Algorithmus
Analysieren Sie die genannte Entitätserkennung (NER), um Kandidateneinheiten aus NP -Spannweiten zu extrahieren
Analysieren der Beziehungsextraktion (RE), um die Beziehungen zwischen paarweisen Entitäten zu extrahieren
Führen Sie eine Entität aus, die die ER -Ergebnisse nutzt, die die ER -Ergebnisse nutzen
Fördern Sie die extrahierten Einheiten und Beziehungen bis zur semantischen Überlagerung

Dieser Ansatz steht im Gegensatz zur Verwendung eines großen Sprachmodells (LLM) als One -Größe für alle "Black Box" -Ansatz, um die gesamte Grafik automatisch zu erzeugen. Black Box -Ansätze eignen sich nicht gut für KG -Praktiken in regulierten Umgebungen, in denen Audits, Erklärungen, Beweise, Datenproduktion usw. erforderlich sind.

Besser noch, überprüfen Sie die Zwischenergebnisse nach jedem Inferenzschritt, um menschliches Feedback für die Kuratierung der KG -Komponenten, z. B. mit Argilla , zu sammeln.

KGs, die in missionskritischen Apps verwendet werden, wie z. B. Untersuchungen, beruhen im Allgemeinen auf Aktualisierungen, nicht auf einem einstufigen Konstruktionsprozess. Durch die Erzeugung eines KG basierend auf den obigen Schritten können Aktualisierungen effektiver behandelt werden. Nachgeschaltete Apps wie Graph Rag für die Erde der LLM -Ergebnisse profitieren auch von einer verbesserten Datenqualität.