Download strwythura - Download do código strwythura

strwythura

Outro código-fonte

1.0.0

Baixar

Graphgeeks.org Talk 2024-08-14

Como construir gráficos de conhecimento a partir de fontes de dados não estruturadas.

Evento: https://live.zoho.com/pbob6fvr6c
Vídeo: https://youtu.be/b6_nfvql-be
Slides: https://derwen.ai/s/2njz#1

Advertência: este repositório fornece o código -fonte e os notebooks que acompanham um tutorial instrucional; Não se destina a uma biblioteca ou produto de pacotes.

Configurar

python3 -m venv venv
source venv/bin/activate
python3 -m pip install -U pip wheel
python3 -m pip install -r requirements.txt

Run Demo

O aplicativo de demonstração completo está em demo.py :

python3 demo.py

Essa demonstração elimina fontes de texto de artigos sobre a ligação entre demência e a ingestão de carne vermelha processada regularmente e produz um gráfico usando NetworkX , um banco de dados vetorial de incorporação de chunk de texto usando LanceDB e um modelo de incorporação de entidade usando gensim.Word2Vec , onde os resultados são:

data/kg.json - Serialização do Gráfico NetworkX
data/lancedb - Tabelas de banco de dados vetorial
data/entity.w2v - Modelo de incorporação de entidade
kg.html - Visualização de gráficos interativos em PyVis

Explore cadernos

Uma coleção de cadernos Jupyter ilustra etapas importantes neste fluxo de trabalho:

./venv/bin/jupyter-lab

Parte 1: construct.ipynb - Construção KG detalhada usando um gráfico lexical
Parte 2: chunk.ipynb - exemplo simples de como raspar e textos de pedaços
Parte 3: vector.ipynb - Tabela de consulta LanceDB para incorporação de pedaços de texto (depois de executar demo.py )
Parte 4: embed.ipynb - consulta o modelo de incorporação da entidade (depois de executar demo.py )

Processo generalizado e sem sucção

Objetivo: Construa um gráfico de conhecimento (kg) usando bibliotecas de código aberto, onde os modelos de aprendizado profundo fornecem soluções de pontos com foco restrito para gerar componentes para um gráfico: nós, arestas, propriedades.

Essas etapas definem um processo generalizado, onde este tutorial pega no gráfico lexical :

Sobreposição semântica:

Carregue quaisquer vocabulários controlados predefinidos diretamente no kg

Gráfico de dados:

Carregue as fontes de dados estruturadas ou atualizações em um gráfico de dados
Execute a resolução da entidade (ER) no PII extraído do gráfico de dados
Use os resultados do ER para gerar uma sobreposição semântica como uma "espinha dorsal" para o kg

Gráfico lexical:

analisar os pedaços de texto, usando lematização para normalizar os vãos do token
Construa um gráfico lexical a partir de árvores de análise, por exemplo, usando um algoritmo de textgraph
Analisar o reconhecimento de entidade nomeado (NER) para extrair entidades candidatas de vãos de NP
Analise a extração de relação (Re) para extrair relações entre entidades pareadas
executar a entidade Linking (EL) alavancando os resultados do ER
promover as entidades e relações extraídas até a sobreposição semântica

Essa abordagem contrasta com o uso de um modelo de idioma grande (LLM) como um tamanho único se encaixa em toda a abordagem "Black Box" para gerar todo o gráfico automaticamente. As abordagens da caixa preta não funcionam bem para práticas de kg em ambientes regulamentados, onde são necessárias auditorias, explicações, evidências, proveniência de dados etc.

Melhor ainda, revise os resultados intermediários após cada etapa de inferência para coletar feedback humano para curar os componentes de KG, por exemplo, usando Argilla .

Os KGs usados em aplicativos missionários, como investigações, geralmente dependem de atualizações, não de um processo de construção de uma etapa. Ao produzir um kg com base nas etapas acima, as atualizações podem ser tratadas com mais eficiência. Aplicativos a jusante, como o gráfico RAG para aterrar os resultados do LLM, também se beneficiará da melhoria da qualidade dos dados.