Скачать strwythura - скачать strwythura код исходный код

strwythura

Другой исходный код

1.0.0

Скачать

Graphgeeks.org Talk 2024-08-14

Как построить графики знаний из неструктурированных источников данных.

Событие: https://live.zoho.com/pbob6fvr6c
Видео: https://youtu.be/b6_nfvql-be
Слайды: https://derwen.ai/s/2njz#1

Предостережение: этот репо содержит исходный код и записные книжки, которые сопровождают учебное пособие; Он не предназначен как библиотека или продукт.

Настраивать

python3 -m venv venv
source venv/bin/activate
python3 -m pip install -U pip wheel
python3 -m pip install -r requirements.txt

Запустить демонстрацию

Полное демонстрационное приложение находится в demo.py :

python3 demo.py

Это демонстрационное сохранение текстовых источников из статей о связи между деменцией и регулярным питанием обработанного красного мяса, а затем производит график с использованием NetworkX , векторной базы данных текстовых встроений кусок с использованием LanceDB , и модели встраивания объекта с использованием gensim.Word2Vec , где результаты: результаты: результаты: результаты: результаты: результаты: результаты: результаты: результаты: результаты: результаты

data/kg.json - сериализация Graph NetworkX
data/lancedb - таблицы векторных баз данных
data/entity.w2v - модель встраивания объекта
kg.html - Интерактивная визуализация графика в PyVis

Исследуйте тетради

Коллекция ноутбуков Jupyter иллюстрирует важные шаги в этом рабочем процессе:

./venv/bin/jupyter-lab

Часть 1: construct.ipynb - подробная конструкция кг с использованием лексического графика
Часть 2: chunk.ipynb - простой пример того, как очистить и кусочек текста
Часть 3: vector.ipynb - таблица запроса Lancedb для текстовых внедрений (после запуска demo.py )
Часть 4: embed.ipynb - Запрос модель встраивания сущности (после запуска demo.py )

Обобщенное, разбросанное процесс

Цель: построить график знаний (кг), используя библиотеки с открытым исходным кодом, где модели глубокого обучения предоставляют узко ориентированные точечные решения для генерации компонентов для графика: узлы, края, свойства.

Эти шаги определяют обобщенный процесс, где этот учебник поднимается на лексическом графике :

Семантическое наложение:

Загрузите любые предварительно определенные контролируемые словесные слова непосредственно в KG

График данных:

Загрузите структурированные источники данных или обновления в график данных
Выполнить разрешение сущности (ER) на PII, извлеченное из графа данных
Используйте результаты ER, чтобы генерировать семантическое наложение в качестве «основы» для KG

Лексический график:

Проанализируйте текстовые куски, используя лемматизацию для нормализации пролетов токенов
Построить лексический график из деревьев Parse, например, с использованием алгоритма текстового графа
Анализ признание названного организации (NER) для извлечения кандидатов из NP -пролетов
анализировать экстракцию отношений (re) для извлечения отношений между парными сущностями
Выполнить сущность, связывающая (EL), используя результаты ER
продвигать извлеченные сущности и отношения вплоть до семантического наложения

Этот подход в отличие от использования большой языковой модели (LLM) в качестве одного размера подходит весь подход «черный ящик» для автоматического генерации всего графа. Подходы Black Box не работают хорошо для практик KG в регулируемых средах, где требуются аудиты, объяснения, доказательства, происхождение данных и т. Д.

Еще лучше, просмотрите промежуточные результаты после каждого шага вывода для сбора обратной связи человека для куратора компонентов KG, например, с использованием Argilla .

KG, используемые в критически важных приложениях, таких как исследования, как правило, полагаются на обновления, а не на одноступенчатый строительный процесс. Производя кг на основе приведенных выше шагов, обновления можно обрабатывать более эффективно. Приложения вниз по течению, такие как Graph Rag для заземления результатов LLM, также выиграют от улучшения качества данных.