Download de spikex - Download do código fonte spikex

Spikex - Tubos espaciais para extração de conhecimento

O Spikex é uma coleção de tubos prontos para serem conectados em um pipeline espacial. O objetivo é ajudar a construir ferramentas de extração de conhecimento com esforço quase zero.

O que há de novo em Spikex 0.5.0

Wikigraph nunca foi tão rápido:

? Desempenho Mooning , graças à adoção de uma matriz de adjacência esparsa para lidar com o gráfico de páginas, em vez de usar o IGRAPH
Otimização da memória , com um corte de consumo em ~ 40% e um tamanho compactado reduzido em ~ 20%, introduzindo novos dicionários bidirecionais para gerenciar dados
Novas APIs para um uso e interação mais rápidos e mais fáceis
? Correções gerais , para um gráfico melhor e uma melhor correspondência de páginas

Tubos

WikiPageX vincula as páginas da Wikipedia a pedaços no texto
Clusterx escolhe pedaços substantivos em um texto e os agarra com base na revisitar o algoritmo do mapeador de bola, mapeador de bola radial
A ABBRX detecta abreviações e acrônimos, ligando -os à sua forma longa. É baseado no Scispacy's One com melhorias
LabelX pega as marcas de expressões de correspondência de padrões e as pega em um texto, resolvendo sobreposições, abreviações e acrônimos
O Phrasex cria a extensão sublinheira de um Doc com base em um nome de atributo personalizado e padrões de frase. Exemplos são substantivos e verbphrasex , que extraem frases de substantivo e frases verbais, respectivamente
Sentx detecta frases em um texto, baseado em splitta com refinamentos

Ferramentas

Wikigraph com páginas como folhas ligadas a categorias como nós
Matcher que herda sua interface do Spacy's One, mas construído usando um motor feito de regex que aumenta seu desempenho

Instale o Spikex

Alguns requisitos são herdados da Spacy:

Versão Spacy : 2.3+
Sistema Operacional : MacOS / OS X · Linux · Windows (Cygwin, Mingw, Visual Studio)
Versão Python : Python 3.6+ (apenas 64 bits)
Gerentes de pacotes : PIP

Algumas dependências usam Cython e precisa ser instalado antes do Spikex:

pip install cython

Lembre -se de que um ambiente virtual é sempre recomendado, a fim de evitar a modificação do estado do sistema.

pip

Neste ponto, a instalação do Spikex via Pip é um comando de uma linha:

pip install spikex

Uso

Pré -requisitos

Os tubos Spikex funcionam com Spacy, portanto, um modelo é necessário instalar. Siga as instruções oficiais aqui. O novo Spacy 3.0 é suportado!

Wikigraph

Um WikiGraph é construído a partir de alguns componentes -chave da Wikipedia: páginas , categorias e relações entre eles.

Auto

Criar um WikiGraph pode levar tempo, dependendo do tamanho do seu depósito de Wikipedia. Por esse motivo, fornecemos wikigraphs prontos para serem usados:

Data	Wikigraph	Lang	Tamanho (comprimido)	Tamanho (memória)
2021-05-20	enwiki_core	En	1,3 GB	8 GB
2021-05-20	Simplewiki_core	En	20 MB	130 MB
2021-05-20	itwiki_core	ISTO	208 MB	1,2 GB
Mais chegando ...

O Spikex fornece um comando para baixar e instalar um WikiGraph (Linux ou MacOS, o Windows ainda não suportado):

spikex download-wikigraph simplewiki_core

Manual

Um WikiGraph pode ser criado a partir da linha de comando, especificando qual dump da Wikipedia para levar e onde salvá -la:

spikex create-wikigraph 
  < YOUR-OUTPUT-PATH > 
  --wiki < WIKI-NAME, default: en > 
  --version < DUMP-VERSION, default: latest > 
  --dumps-path < DUMPS-BACKUP-PATH >

Então ele precisa ser embalado e instalado:

spikex package-wikigraph 
  < WIKIGRAPH-RAW-PATH > 
  < YOUR-OUTPUT-PATH >

Siga as instruções no final do processo de embalagem e instale o pacote de distribuição em seu ambiente virtual. Agora você está pronto para usar seu wikigraph como desejar:

 from spikex . wikigraph import load as wg_load

wg = wg_load ( "enwiki_core" )
page = "Natural_language_processing"
categories = wg . get_categories ( page , distance = 1 )
for category in categories :
    print ( category )

> >> Category : Speech_recognition
> >> Category : Artificial_intelligence
> >> Category : Natural_language_processing
> >> Category : Computational_linguistics

Matcher

O Matcher é idêntico ao de Spacy, mas mais rápido quando se trata de lidar com muitos padrões ao mesmo tempo (ordem de milhares); portanto, siga as instruções oficiais de uso aqui.

Um exemplo trivial:

 from spikex . matcher import Matcher
from spacy import load as spacy_load

nlp = spacy_load ( "en_core_web_sm" )
matcher = Matcher ( nlp . vocab )
matcher . add ( "TEST" , [[{ "LOWER" : "nlp" }]])
doc = nlp ( "I love NLP" )
for _ , s , e in matcher ( doc ):
  print ( doc [ s : e ])

> >> NLP

WikiPagex

O WikiPageX Pipe usa um WikiGraph para encontrar pedaços em um texto que corresponde aos títulos da página da Wikipedia.

 from spacy import load as spacy_load
from spikex . wikigraph import load as wg_load
from spikex . pipes import WikiPageX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "An apple a day keeps the doctor away" )
wg = wg_load ( "simplewiki_core" )
wpx = WikiPageX ( wg )
doc = wpx ( doc )
for span in doc . _ . wiki_spans :
  print ( span . _ . wiki_pages )

> >> [ 'An' ]
> >> [ 'Apple' , 'Apple_(disambiguation)' , 'Apple_(company)' , 'Apple_(tree)' ]
> >> [ 'A' , 'A_(musical_note)' , 'A_(New_York_City_Subway_service)' , 'A_(disambiguation)' , 'A_(Cyrillic)' )]
> >> [ 'Day' ]
> >> [ 'The_Doctor' , 'The_Doctor_(Doctor_Who)' , 'The_Doctor_(Star_Trek)' , 'The_Doctor_(disambiguation)' ]
> >> [ 'The' ]
> >> [ 'Doctor_(Doctor_Who)' , 'Doctor_(Star_Trek)' , 'Doctor' , 'Doctor_(title)' , 'Doctor_(disambiguation)' ]

Clusterx

O tubo ClusterX pega pedaços substantivos em um texto e os agarra usando um algoritmo de mapeador de bola radial.

 from spacy import load as spacy_load
from spikex . pipes import ClusterX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "Grab this juicy orange and watch a dog chasing a cat." )
clusterx = ClusterX ( min_score = 0.65 )
doc = clusterx ( doc )
for cluster in doc . _ . cluster_chunks :
  print ( cluster )

> >> [ this juicy orange ]
> >> [ a cat , a dog ]

Abbrx

O tubo ABBRX encontra abreviações e acrônimos no texto, vinculando formas curtas e longas:

 from spacy import load as spacy_load
from spikex . pipes import AbbrX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "a little snippet with an abbreviation (abbr)" )
abbrx = AbbrX ( nlp . vocab )
doc = abbrx ( doc )
for abbr in doc . _ . abbrs :
  print ( abbr , "->" , abbr . _ . long_form )

> >> abbr - > abbreviation

LABELX

O tubo LabelX corresponde e rótulos padrões em texto, resolvendo sobreposições, abreviações e acrônimos.

 from spacy import load as spacy_load
from spikex . pipes import LabelX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "looking for a computer system engineer" )
patterns = [
  [{ "LOWER" : "computer" }, { "LOWER" : "system" }],
  [{ "LOWER" : "system" }, { "LOWER" : "engineer" }],
]
labelx = LabelX ( nlp . vocab , [( "TEST" , patterns )], validate = True , only_longest = True )
doc = labelx ( doc )
for labeling in doc . _ . labelings :
  print ( labeling , f"[ { labeling . label_ } ]" )

> >> computer system engineer [ TEST ]

Phrasex

O tubo PhraseX cria uma extensão sublinheira de Doc personalizado que atende a correspondências a partir de padrões de frase.

 from spacy import load as spacy_load
from spikex . pipes import PhraseX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "I have Melrose and McIntosh apples, or Williams pears" )
patterns = [
  [{ "LOWER" : "mcintosh" }],
  [{ "LOWER" : "melrose" }],
]
phrasex = PhraseX ( nlp . vocab , "apples" , patterns )
doc = phrasex ( doc )
for apple in doc . _ . apples :
  print ( apple )

> >> Melrose
> >> McIntosh

Sentx

O tubo Sentx divide frases em um texto. Ele modifica o atributo is_sent_start de tokens, por isso é obrigatório adicioná -lo antes do tubo do analisador no pipeline de spacy:

 from spacy import load as spacy_load
from spikex . pipes import SentX
from spikex . defaults import spacy_version

if spacy_version >= 3 :
  from spacy . language import Language

  @ Language . factory ( "sentx" )
  def create_sentx ( nlp , name ):
      return SentX ()

nlp = spacy_load ( "en_core_web_sm" )
sentx_pipe = SentX () if spacy_version < 3 else "sentx"
nlp . add_pipe ( sentx_pipe , before = "parser" )
doc = nlp ( "A little sentence. Followed by another one." )
for sent in doc . sents :
  print ( sent )

> >> A little sentence .
> >> Followed by another one .

Isso é tudo

Sinta -se à vontade para contribuir e se divertir!

Expandir

spikex

Spikex - Tubos espaciais para extração de conhecimento

O que há de novo em Spikex 0.5.0

Tubos

Ferramentas

Instale o Spikex

pip

Uso

Pré -requisitos

Wikigraph

Auto

Manual

Matcher

WikiPagex

Clusterx

Abbrx

LABELX

Phrasex

Sentx

Isso é tudo

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express