strwythuraダウンロード - strwythuraソースコードのダウンロード

strwythura

その他のソースコード

1.0.0

ダウンロード

graphgeeks.org talk 2024-08-14

構造化されていないデータソースから知識グラフを構築する方法。

イベント：https：//live.zoho.com/pbob6fvr6c
ビデオ：https：//youtu.be/b6_nfvql-be
スライド：https：//derwen.ai/s/2njz#1

警告：このレポは、教育チュートリアルに添付されたソースコードとノートブックを提供します。パッケージライブラリや製品として意図されていません。

設定

python3 -m venv venv
source venv/bin/activate
python3 -m pip install -U pip wheel
python3 -m pip install -r requirements.txt

デモを実行します

完全なデモアプリはdemo.pyにあります：

python3 demo.py

このデモは、認知症と定期的に加工された赤身肉との間のリンケージに関する記事からテキストソースを削ってから、 NetworkXを使用してグラフを生成し、 LanceDBを使用したテキストチャンク埋め込みのベクトルデータベース、およびgensim.Word2Vecを使用したエンティティ埋め込みモデルを作成します。

data/kg.json NetworkXグラフのシリアル化
data/lancedb -Vectorデータベーステーブル
data/entity.w2vエンティティ埋め込みモデル
kg.html PyVisのインタラクティブグラフの視覚化

ノートブックを探索します

Jupyterノートブックのコレクションは、このワークフロー内の重要な手順を示しています。

./venv/bin/jupyter-lab

パート1： construct.ipynb語彙グラフを使用した詳細なkg構造
パート2： chunk.ipynbスクレイプとチャンクテキストの簡単な例
パート3： vector.ipynbテキストチャンク埋め込みのためのクエリlancedbテーブル（ demo.pyを実行した後）
パート4： embed.ipynb -Entity Embedding Modelをクエリします（ demo.pyを実行した後）

一般化された、バンドルされていないプロセス

目的：オープンソースライブラリを使用して知識グラフ（kg）を構築します。深い学習モデルは、ノード、エッジ、プロパティのグラフのコンポーネントを生成するために、狭い学習モデルを提供します。

これらの手順は、このチュートリアルが語彙グラフでピックアップする一般化プロセスを定義します。

セマンティックオーバーレイ：

事前に定義された制御された語彙をKgに直接ロードします

データグラフ：

構造化されたデータソースまたは更新をデータグラフにロードする
データグラフから抽出されたPIIでエンティティ解像度（ER）を実行する
ER結果を使用して、KGの「バックボーン」としてセマンティックオーバーレイを生成します

語彙グラフ：

テキストのチャンクを解析し、トークンスパンを正規化するためにlemmatizationを使用して
テキストグラフアルゴリズムを使用して、解析ツリーから語彙グラフを作成する
名前付きエンティティ認識（NER）を分析して、NPスパンから候補エンティティを抽出する
関係抽出（RE）を分析して、ペアワイズエンティティ間の関係を抽出する
ERの結果を活用するエンティティリンク（EL）を実行します
抽出されたエンティティとセマンティックオーバーレイまでの関係を促進する

このアプローチは、1つのサイズとして大規模な言語モデル（LLM）を使用することとは対照的に、すべての「ブラックボックス」アプローチに適合し、グラフ全体を自動的に生成します。ブラックボックスのアプローチは、監査、説明、証拠、データの起源などが必要な規制環境でのKGプラクティスではうまく機能しません。

さらに良いことに、各推論ステップの後に中間結果を確認して、たとえばArgillaを使用してKGコンポーネントをキュレーションするための人間のフィードバックを収集します。

調査などのミッションクリティカルなアプリで使用されるKGSは、一般に、ワンステップの構築プロセスではなく、更新に依存しています。上記の手順に基づいてKGを作成することにより、更新をより効果的に処理できます。 LLMの結果を接地するためのグラフラグなどのダウンストリームアプリも、データ品質の向上の恩恵を受けます。