كيفية بناء الرسوم البيانية المعرفة من مصادر البيانات غير المهيكلة.
التحذير: يوفر هذا الريبو رمز المصدر وأجهزة الكمبيوتر المحمولة التي تصاحب تعليميًا تعليميًا ؛ ليس المقصود كمكتبة أو منتج حزمة.
python3 -m venv venv
source venv/bin/activate
python3 -m pip install -U pip wheel
python3 -m pip install -r requirements.txt التطبيق التجريبي الكامل في demo.py :
python3 demo.py هذا التجريبي يخلص من مصادر نصية من مقالات حول الارتباط بين الخرف وتناول اللحوم الحمراء المصنعة بانتظام ، ثم ينتج رسمًا بيانيًا باستخدام NetworkX ، وقاعدة بيانات متجهية من تضمينات نصية النصية باستخدام LanceDB ، ونموذج دمج كيان باستخدام gensim.Word2Vec ، حيث تكون النتائج: النتائج:
data/kg.json NetworkXdata/lancedb - جداول قاعدة بيانات المتجهاتdata/entity.w2v - نموذج تضمين الكيانkg.html - تصور الرسم البياني التفاعلي في PyVis توضح مجموعة من أجهزة الكمبيوتر المحمولة Jupyter خطوات مهمة في سير العمل هذا:
./venv/bin/jupyter-labconstruct.ipynb .chunk.ipynb - مثال بسيط على كيفية كشط ونص القطعvector.ipynb - جدول الاستعلام locentb للتضمينات النصية النصية (بعد تشغيل demo.py )embed.ipynb - الاستعلام عن نموذج تضمين الكيان (بعد تشغيل demo.py ) الهدف: بناء رسم بياني للمعرفة (KG) باستخدام مكتبات مفتوحة المصدر حيث توفر نماذج التعلم العميق حلول نقاط تركز بشكل ضيق لإنشاء مكونات للرسم البياني: العقد ، الحواف ، الخصائص.
تحدد هذه الخطوات عملية معممة ، حيث يلتقط هذا البرنامج التعليمي في الرسم البياني المعجمي :
تراكب دلالي:
رسم بياني البيانات:
الرسم البياني المعجمي:
يتناقض هذا النهج على استخدام نموذج لغة كبير (LLM) حيث يناسب حجم واحد جميع "المربع الأسود" لإنشاء الرسم البياني بالكامل بشكل تلقائي. لا تعمل أساليب الصندوق الأسود بشكل جيد بالنسبة لممارسات KG في البيئات الخاضعة للتنظيم ، حيث يلزم إجراء عمليات التدقيق والتفسيرات والأدلة ومصدر البيانات ، وما إلى ذلك.
والأفضل من ذلك ، مراجعة النتائج المتوسطة بعد كل خطوة استنتاج لجمع التعليقات البشرية لترسيب مكونات KG ، على سبيل المثال ، باستخدام Argilla .
تعتمد KGS المستخدمة في التطبيقات المهمة مثل التحقيقات عمومًا على التحديثات ، وليس عملية بناء خطوة واحدة. من خلال إنتاج كيلوغرام بناءً على الخطوات المذكورة أعلاه ، يمكن التعامل مع التحديثات بشكل أكثر فعالية. ستستفيد تطبيقات المصب مثل الرسم البياني لتأسيس نتائج LLM من تحسين جودة البيانات.
spaCy : https://spacy.io/GLiNER : https://github.com/urchade/glinerGLiREL : https://github.com/jackboyla/glirelOpenNRE : https://github.com/thunlp/opennreNetworkX : https://networkx.org/PyVis : https://github.com/westhealth/pyvisLanceDB : https://github.com/lancedb/lancedBgensim : https://github.com/piskvorky/gensimpandas : https://pandas.pydata.org/Pydantic : https://github.com/pydantic/pydanticPyinstrument : https://github.com/joerick/pyinstrument ملاحظة: يجب عليك استخدام البرنامج النصي nre.sh لتحميل النماذج المفتوحة قبل التدريب قبل تشغيل دفتر opennre.ipynb .