Unduh strwythura - Unduh Kode Sumber strwythura

strwythura

Kode sumber lainnya

1.0.0

Unduh

Graphgeeks.org bicara 2024-08-14

Cara membangun grafik pengetahuan dari sumber data yang tidak terstruktur.

Acara: https://live.zoho.com/pbob6fvr6c
Video: https://youtu.be/b6_nfvql-be
Slide: https://derwen.ai/s/2njz#1

Peringatan: Repo ini menyediakan kode sumber dan buku catatan yang menyertai tutorial instruksional; Ini tidak dimaksudkan sebagai perpustakaan atau produk paket.

Mendirikan

python3 -m venv venv
source venv/bin/activate
python3 -m pip install -U pip wheel
python3 -m pip install -r requirements.txt

Jalankan demo

Aplikasi demo lengkap ada di demo.py :

python3 demo.py

Demo ini menggores sumber teks dari artikel tentang hubungan antara demensia dan makan daging merah olahan secara teratur, kemudian menghasilkan grafik menggunakan NetworkX , database vektor embedding chunk teks menggunakan LanceDB , dan model embedding entitas menggunakan gensim.Word2Vec , di mana hasilnya adalah:

data/kg.json - Serialisasi Grafik NetworkX
data/lancedb - Tabel Database Vektor
data/entity.w2v - Model Embedding Entitas
kg.html - Visualisasi Grafik Interaktif di PyVis

Jelajahi buku catatan

Koleksi buku catatan Jupyter menggambarkan langkah -langkah penting dalam alur kerja ini:

./venv/bin/jupyter-lab

Bagian 1: construct.ipynb - Konstruksi KG terperinci menggunakan grafik leksikal
Bagian 2: chunk.ipynb - Contoh sederhana tentang cara mengikis dan memotong teks
Bagian 3: vector.ipynb - Tabel Landedb kueri untuk embeddings chunk teks (setelah menjalankan demo.py )
Bagian 4: embed.ipynb - Permintaan Model Embedding Entitas (Setelah Menjalankan demo.py )

Proses umum, tidak terikat

Tujuan: Bangun grafik pengetahuan (kg) Menggunakan pustaka sumber terbuka di mana model pembelajaran mendalam memberikan solusi titik yang berfokus pada secara sempit untuk menghasilkan komponen untuk grafik: node, tepi, properti.

Langkah -langkah ini menentukan proses umum, di mana tutorial ini mengambil grafik leksikal :

Hamparan semantik:

Muat apapun kosakata terkontrol yang telah ditentukan sebelumnya ke kg

Grafik Data:

Muat sumber data terstruktur atau pembaruan ke dalam grafik data
Lakukan Resolusi Entitas (ER) pada PII yang diekstraksi dari grafik data
Gunakan hasil ER untuk menghasilkan overlay semantik sebagai "tulang punggung" untuk kg

Grafik Leksikal:

Parse potongan teks, menggunakan lemmatisasi untuk menormalkan rentang token
Bangun grafik leksikal dari pohon parse, misalnya, menggunakan algoritma TextGraph
Analisis Named Entity Recognition (NER) untuk mengekstraksi entitas kandidat dari rentang NP
Menganalisis ekstraksi relasi (RE) untuk mengekstraksi hubungan antara entitas berpasangan
Lakukan Entitas Linking (EL) Memanfaatkan Hasil ER
mempromosikan entitas dan hubungan yang diekstraksi hingga overlay semantik

Pendekatan ini berbeda dengan menggunakan model bahasa besar (LLM) karena satu ukuran cocok untuk semua pendekatan "kotak hitam" untuk menghasilkan seluruh grafik secara otomatis. Pendekatan kotak hitam tidak bekerja dengan baik untuk praktik KG di lingkungan yang diatur, di mana audit, penjelasan, bukti, sumber data, dll., Diperlukan.

Lebih baik lagi, tinjau hasil perantara setelah setiap langkah inferensi untuk mengumpulkan umpan balik manusia untuk membuat komponen KG, misalnya, menggunakan Argilla .

KG yang digunakan dalam aplikasi kritis misi seperti investigasi umumnya bergantung pada pembaruan, bukan proses konstruksi satu langkah. Dengan menghasilkan kg berdasarkan langkah -langkah di atas, pembaruan dapat ditangani secara lebih efektif. Aplikasi hilir seperti grafik kain untuk mendarat hasil LLM juga akan mendapat manfaat dari peningkatan kualitas data.