Téléchargement spikex - Téléchargement du code source spikex

Spikex - tuyaux spacés pour l'extraction des connaissances

Spikex est une collection de tuyaux prêts à être branchés dans un pipeline spacy. Il vise à aider à créer des outils d'extraction de connaissances avec presque zéro effort.

Quoi de neuf dans Spikex 0.5.0

Wikigraph n'a jamais été aussi rapide:

? Performance Mooning , grâce à l'adoption d'une matrice d'adjacence clairsemée pour gérer le graphique des pages, au lieu d'utiliser IGraph
Optimisation de la mémoire , avec une réduction de la consommation d'environ 40% et une taille comprimée baisse de ~ 20%, introduisant de nouveaux dictionnaires bidirectionnels pour gérer les données
Nouvelles API pour une utilisation et une interaction plus rapides et plus faciles
? Correctifs globaux , pour un meilleur graphique et une meilleure pages correspondant

Tuyaux

Wikipagex relie les pages Wikipedia à des morceaux dans le texte
Clusterx cueille des morceaux de nom dans un texte et les clue sur la base d'une revisité de l'algorithme de mappeur à billes, du mappeur à billes radial
Abbrx détecte les abréviations et les acronymes, les reliant à leur longue forme. Il est basé sur celui de Scispacy avec des améliorations
Labelx prend les étiquettes des expressions de correspondance de motifs et les attrape dans un texte, résolvant les chevauchements, les abréviations et les acronymes
Phrasex crée une extension de soulignement d' Doc basé sur un nom d'attribut personnalisé et des modèles de phrase. Des exemples sont le NounPhrasex et le Verbphrasex , qui extraient respectivement des phrases nominales et des phrases verbales
SentX détecte les phrases dans un texte, basé sur Splitta avec des raffinements

Outils

Wikigraph avec des pages comme des feuilles liées aux catégories comme nœuds
Matcher qui hérite de son interface de la Spacy, mais construite à l'aide d'un moteur en regex qui augmente ses performances

Installer Spikex

Certaines exigences sont héritées de Spacy:

Version de Spacy : 2.3+
Système d'exploitation : macOS / OS X · Linux · Windows (Cygwin, Mingw, Visual Studio)
Version Python : Python 3.6+ (seulement 64 bits)
Gestionnaires de packages : pip

Certaines dépendances utilisent le cython et doivent être installées avant Spikex:

pip install cython

N'oubliez pas qu'un environnement virtuel est toujours recommandé, afin d'éviter de modifier l'état du système.

pépin

À ce stade, l'installation de Spikex via PIP est une commande d'une ligne:

pip install spikex

Usage

Conditionnement préalable

Les tuyaux Spikex fonctionnent avec Spacy, d'où un modèle dont il a besoin d'être installé. Suivez les instructions officielles ici. Le tout nouveau Spacy 3.0 est pris en charge!

Wikigraph

Un WikiGraph est construit à partir de certaines composantes clés de Wikipedia: pages , catégories et relations entre eux.

Auto

La création d'un WikiGraph peut prendre du temps, selon la taille de sa décharge Wikipedia. Pour cette raison, nous fournissons des wikigraphs prêts à être utilisés:

Date	Wikigraph	Égouter	Taille (compressée)	Taille (mémoire)
2021-05-20	enwiki_core	En	1,3 Go	8 Go
2021-05-20	Simplewiki_core	En	20 Mo	130 Mo
2021-05-20	itwiki_core	IL	208 Mo	1,2 Go
Plus à venir ...

Spikex fournit une commande pour le téléchargement et l'installation d'un WikiGraph (Linux ou MacOS, Windows non pris en charge):

spikex download-wikigraph simplewiki_core

Manuel

Un WikiGraph peut être créé à partir de la ligne de commande, spécifiant quel vidage Wikipedia à prendre et où le sauver:

spikex create-wikigraph 
  < YOUR-OUTPUT-PATH > 
  --wiki < WIKI-NAME, default: en > 
  --version < DUMP-VERSION, default: latest > 
  --dumps-path < DUMPS-BACKUP-PATH >

Ensuite, il doit être emballé et installé:

spikex package-wikigraph 
  < WIKIGRAPH-RAW-PATH > 
  < YOUR-OUTPUT-PATH >

Suivez les instructions à la fin du processus d'emballage et installez le package de distribution dans votre environnement virtuel. Maintenant, vous êtes prêt à utiliser votre wikigraph comme vous le souhaitez:

 from spikex . wikigraph import load as wg_load

wg = wg_load ( "enwiki_core" )
page = "Natural_language_processing"
categories = wg . get_categories ( page , distance = 1 )
for category in categories :
    print ( category )

> >> Category : Speech_recognition
> >> Category : Artificial_intelligence
> >> Category : Natural_language_processing
> >> Category : Computational_linguistics

Correspondant

Le correspondant est identique à celui de Spacy, mais plus vite en ce qui concerne les nombreux modèles à la fois (ordre de milliers), alors suivez les instructions d'utilisation officielles ici.

Un exemple trivial:

 from spikex . matcher import Matcher
from spacy import load as spacy_load

nlp = spacy_load ( "en_core_web_sm" )
matcher = Matcher ( nlp . vocab )
matcher . add ( "TEST" , [[{ "LOWER" : "nlp" }]])
doc = nlp ( "I love NLP" )
for _ , s , e in matcher ( doc ):
  print ( doc [ s : e ])

> >> NLP

Wikipagex

Le tuyau WikiPageX utilise un WikiGraph afin de trouver des morceaux dans un texte qui correspond aux titres de page Wikipedia.

 from spacy import load as spacy_load
from spikex . wikigraph import load as wg_load
from spikex . pipes import WikiPageX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "An apple a day keeps the doctor away" )
wg = wg_load ( "simplewiki_core" )
wpx = WikiPageX ( wg )
doc = wpx ( doc )
for span in doc . _ . wiki_spans :
  print ( span . _ . wiki_pages )

> >> [ 'An' ]
> >> [ 'Apple' , 'Apple_(disambiguation)' , 'Apple_(company)' , 'Apple_(tree)' ]
> >> [ 'A' , 'A_(musical_note)' , 'A_(New_York_City_Subway_service)' , 'A_(disambiguation)' , 'A_(Cyrillic)' )]
> >> [ 'Day' ]
> >> [ 'The_Doctor' , 'The_Doctor_(Doctor_Who)' , 'The_Doctor_(Star_Trek)' , 'The_Doctor_(disambiguation)' ]
> >> [ 'The' ]
> >> [ 'Doctor_(Doctor_Who)' , 'Doctor_(Star_Trek)' , 'Doctor' , 'Doctor_(title)' , 'Doctor_(disambiguation)' ]

Cluster

Le tuyau ClusterX prend des morceaux de nom dans un texte et les clusters à l'aide d'un algorithme de mappeur à billes radial.

 from spacy import load as spacy_load
from spikex . pipes import ClusterX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "Grab this juicy orange and watch a dog chasing a cat." )
clusterx = ClusterX ( min_score = 0.65 )
doc = clusterx ( doc )
for cluster in doc . _ . cluster_chunks :
  print ( cluster )

> >> [ this juicy orange ]
> >> [ a cat , a dog ]

Abbrx

Le tuyau Abbrx trouve des abréviations et des acronymes dans le texte, reliant ensemble les formes courtes et longues:

 from spacy import load as spacy_load
from spikex . pipes import AbbrX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "a little snippet with an abbreviation (abbr)" )
abbrx = AbbrX ( nlp . vocab )
doc = abbrx ( doc )
for abbr in doc . _ . abbrs :
  print ( abbr , "->" , abbr . _ . long_form )

> >> abbr - > abbreviation

Labelx

Le tuyau LabelX correspond et étiquette les motifs en texte, en résolvant les chevauchements, les abréviations et les acronymes.

 from spacy import load as spacy_load
from spikex . pipes import LabelX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "looking for a computer system engineer" )
patterns = [
  [{ "LOWER" : "computer" }, { "LOWER" : "system" }],
  [{ "LOWER" : "system" }, { "LOWER" : "engineer" }],
]
labelx = LabelX ( nlp . vocab , [( "TEST" , patterns )], validate = True , only_longest = True )
doc = labelx ( doc )
for labeling in doc . _ . labelings :
  print ( labeling , f"[ { labeling . label_ } ]" )

> >> computer system engineer [ TEST ]

Phraser

Le tuyau PhraseX crée une extension de soulignement de Doc personnalisée qui se réalise avec les correspondances des modèles de phrase.

 from spacy import load as spacy_load
from spikex . pipes import PhraseX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "I have Melrose and McIntosh apples, or Williams pears" )
patterns = [
  [{ "LOWER" : "mcintosh" }],
  [{ "LOWER" : "melrose" }],
]
phrasex = PhraseX ( nlp . vocab , "apples" , patterns )
doc = phrasex ( doc )
for apple in doc . _ . apples :
  print ( apple )

> >> Melrose
> >> McIntosh

Sentx

Le tuyau SentX divise les phrases dans un texte. Il modifie l'attribut iS_Sent_Start de Tokens ', il est donc obligatoire de l'ajouter avant le tuyau de l'analyseur dans le pipeline Spacy:

 from spacy import load as spacy_load
from spikex . pipes import SentX
from spikex . defaults import spacy_version

if spacy_version >= 3 :
  from spacy . language import Language

  @ Language . factory ( "sentx" )
  def create_sentx ( nlp , name ):
      return SentX ()

nlp = spacy_load ( "en_core_web_sm" )
sentx_pipe = SentX () if spacy_version < 3 else "sentx"
nlp . add_pipe ( sentx_pipe , before = "parser" )
doc = nlp ( "A little sentence. Followed by another one." )
for sent in doc . sents :
  print ( sent )

> >> A little sentence .
> >> Followed by another one .

C'est tout le monde

N'hésitez pas à contribuer et à vous amuser!

Développer

spikex

Spikex - tuyaux spacés pour l'extraction des connaissances

Quoi de neuf dans Spikex 0.5.0

Tuyaux

Outils

Installer Spikex

pépin

Usage

Conditionnement préalable

Wikigraph

Auto

Manuel

Correspondant

Wikipagex

Cluster

Abbrx

Labelx

Phraser

Sentx

C'est tout le monde

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express