spikex Download - spikex -Quellcode herunterladen

Spikex - Spacy Pipes für die Wissensextraktion

Spikex ist eine Sammlung von Rohren, die bereit sind, in eine Spacton -Pipeline eingesteckt zu werden. Ziel ist es, mit fast Null-Anstrengungen zu helfen, Wissensextraktionstools aufzubauen.

Was ist neu in Spikex 0.5.0

Wikigraph war noch nie so blitzschnell:

? Performance Mooning dank der Einführung einer spärlichen Adjazenzmatrix, um Seitendiagramme zu verarbeiten, anstatt iGraph zu verwenden
Speicheroptimierung mit einem Verbrauch von ~ 40% und einer um ~ 20% gesenkten Komprimierungsgröße, wobei neue bidirektionale Wörterbücher zur Verwaltung von Daten eingeführt werden
Neue APIs für eine schnellere und einfachere Verwendung und Interaktion
? Insgesamt Korrekturen für ein besseres Diagramm und eine bessere Seitenübereinstimmung

Rohre

Wikipagex verknüpft Wikipedia -Seiten mit Stücken im Text
Clusterx pflückt Substantivbrocken in einem Text und klingt sie basierend auf einer Überprüfung des Ball Mapper -Algorithmus Radial Ball Mapper
ABBRX erkennt Abkürzungen und Akronyme und verbindet sie mit ihrer langen Form. Es basiert auf der Schüsse mit Verbesserungen
Labelx nimmt Etiketten von Muster -Matching -Ausdrücken auf und fängt sie in einem Text ein, löst Überlagerungen, Abkürzungen und Akronyme
Phrasex erstellt die Unterstricheerweiterung eines Doc basierend auf einem benutzerdefinierten Attributnamen und Phrasenmustern. Beispiele sind Nounphrasex und Verbphrasex , die Substantivphrasen bzw. Verbphrasen extrahieren
Sentx erkennt Sätze in einem Text, basierend auf Splitta mit Verfeinerungen

Werkzeuge

Wikigraph mit Seiten als Blätter, die mit Kategorien als Knoten verbunden sind
Übereinstimmung , der seine Schnittstelle von der Spacy's One erbt, aber mit einem Motor aus Regex erstellt wurde, der seine Leistung steigert

Installieren Sie Spikex

Einige Anforderungen werden von Spacy geerbt:

Spacy -Version : 2.3+
Betriebssystem : MacOS / OS X · Linux · Windows (Cygwin, Mingw, Visual Studio)
Python -Version : Python 3.6+ (nur 64 Bit)
Paketmanager : PIP

Einige Abhängigkeiten verwenden Cython und muss vor Spikex installiert werden:

pip install cython

Denken Sie daran, dass eine virtuelle Umgebung immer empfohlen wird, um die Änderung des Systemzustands zu vermeiden.

Pip

Zu diesem Zeitpunkt ist die Installation von Spikex über PIP ein Eins -Zeilen -Befehl:

pip install spikex

Verwendung

Voraussetzungen

Spikex -Rohre funktionieren mit Spacy, daher musste ein Modell installiert werden. Befolgen Sie hier offizielle Anweisungen. Der brandneue Spacy 3.0 wird unterstützt!

Wikigraph

Ein WikiGraph wird aus einigen wichtigen Komponenten von Wikipedia hergestellt: Seiten , Kategorien und Beziehungen zwischen ihnen.

Auto

Das Erstellen eines WikiGraph kann Zeit in Anspruch nehmen, je nachdem, wie groß das Wikipedia -Dump ist. Aus diesem Grund stellen wir Wikigraphen zur Verfügung, die zur Verwendung bereit sind:

Datum	Wikigraph	Lang	Größe (komprimiert)	Größe (Speicher)
2021-05-20	ENWIKI_CORE	En	1,3 GB	8 GB
2021-05-20	SimpleWiki_Core	En	20mb	130 MB
2021-05-20	itwiki_core	ES	208mb	1,2 GB
Weitere Kommen ...

Spikex bietet einen Befehl zum Herunterladen und Installieren eines WikiGraph (Linux oder MacOS, Windows, das noch nicht unterstützt wird):

spikex download-wikigraph simplewiki_core

Handbuch

Ein WikiGraph kann aus der Befehlszeile erstellt werden, in der angegeben wird, welche Wikipedia -Dump zu sich nehmen und wo sie sie retten sollen:

spikex create-wikigraph 
  < YOUR-OUTPUT-PATH > 
  --wiki < WIKI-NAME, default: en > 
  --version < DUMP-VERSION, default: latest > 
  --dumps-path < DUMPS-BACKUP-PATH >

Dann muss es gepackt und installiert werden:

spikex package-wikigraph 
  < WIKIGRAPH-RAW-PATH > 
  < YOUR-OUTPUT-PATH >

Befolgen Sie die Anweisungen am Ende des Verpackungsprozesses und installieren Sie das Verteilungspaket in Ihrer virtuellen Umgebung. Jetzt sind Sie bereit, Ihren Wikigraph zu verwenden, wie Sie möchten:

 from spikex . wikigraph import load as wg_load

wg = wg_load ( "enwiki_core" )
page = "Natural_language_processing"
categories = wg . get_categories ( page , distance = 1 )
for category in categories :
    print ( category )

> >> Category : Speech_recognition
> >> Category : Artificial_intelligence
> >> Category : Natural_language_processing
> >> Category : Computational_linguistics

Match

Der Match ist identisch mit der Spacy's One, aber schneller, wenn es darum geht, viele Muster gleichzeitig (Reihenfolge von Tausenden) zu behandeln. Befolgen Sie also die offiziellen Nutzungsanweisungen hier.

Ein triviales Beispiel:

 from spikex . matcher import Matcher
from spacy import load as spacy_load

nlp = spacy_load ( "en_core_web_sm" )
matcher = Matcher ( nlp . vocab )
matcher . add ( "TEST" , [[{ "LOWER" : "nlp" }]])
doc = nlp ( "I love NLP" )
for _ , s , e in matcher ( doc ):
  print ( doc [ s : e ])

> >> NLP

Wikipagex

Die WikiPageX -Pipe verwendet einen WikiGraph , um Stücke in einem Text zu finden, der mit Wikipedia -Seitentiteln übereinstimmt.

 from spacy import load as spacy_load
from spikex . wikigraph import load as wg_load
from spikex . pipes import WikiPageX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "An apple a day keeps the doctor away" )
wg = wg_load ( "simplewiki_core" )
wpx = WikiPageX ( wg )
doc = wpx ( doc )
for span in doc . _ . wiki_spans :
  print ( span . _ . wiki_pages )

> >> [ 'An' ]
> >> [ 'Apple' , 'Apple_(disambiguation)' , 'Apple_(company)' , 'Apple_(tree)' ]
> >> [ 'A' , 'A_(musical_note)' , 'A_(New_York_City_Subway_service)' , 'A_(disambiguation)' , 'A_(Cyrillic)' )]
> >> [ 'Day' ]
> >> [ 'The_Doctor' , 'The_Doctor_(Doctor_Who)' , 'The_Doctor_(Star_Trek)' , 'The_Doctor_(disambiguation)' ]
> >> [ 'The' ]
> >> [ 'Doctor_(Doctor_Who)' , 'Doctor_(Star_Trek)' , 'Doctor' , 'Doctor_(title)' , 'Doctor_(disambiguation)' ]

Clusterx

Das ClusterX -Rohr nimmt Substantivbrocken in einen Text und klingt sie mit einem Radial Ball Mapper -Algorithmus.

 from spacy import load as spacy_load
from spikex . pipes import ClusterX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "Grab this juicy orange and watch a dog chasing a cat." )
clusterx = ClusterX ( min_score = 0.65 )
doc = clusterx ( doc )
for cluster in doc . _ . cluster_chunks :
  print ( cluster )

> >> [ this juicy orange ]
> >> [ a cat , a dog ]

Abbrx

Die ABBRX -Rohre findet Abkürzungen und Akronyme im Text und verbinden kurze und lange Formen miteinander:

 from spacy import load as spacy_load
from spikex . pipes import AbbrX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "a little snippet with an abbreviation (abbr)" )
abbrx = AbbrX ( nlp . vocab )
doc = abbrx ( doc )
for abbr in doc . _ . abbrs :
  print ( abbr , "->" , abbr . _ . long_form )

> >> abbr - > abbreviation

Labelx

Das LabelX -Rohr passt und beschriftet Muster im Text und löst Überlagerungen, Abkürzungen und Akronyme.

 from spacy import load as spacy_load
from spikex . pipes import LabelX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "looking for a computer system engineer" )
patterns = [
  [{ "LOWER" : "computer" }, { "LOWER" : "system" }],
  [{ "LOWER" : "system" }, { "LOWER" : "engineer" }],
]
labelx = LabelX ( nlp . vocab , [( "TEST" , patterns )], validate = True , only_longest = True )
doc = labelx ( doc )
for labeling in doc . _ . labelings :
  print ( labeling , f"[ { labeling . label_ } ]" )

> >> computer system engineer [ TEST ]

Phrasex

Die PhraseX -Pipe erstellt die Unterstricheerweiterung eines benutzerdefinierten Doc , die mit Übereinstimmungen aus Phrasenmustern erfüllt.

 from spacy import load as spacy_load
from spikex . pipes import PhraseX

nlp = spacy_load ( "en_core_web_sm" )
doc = nlp ( "I have Melrose and McIntosh apples, or Williams pears" )
patterns = [
  [{ "LOWER" : "mcintosh" }],
  [{ "LOWER" : "melrose" }],
]
phrasex = PhraseX ( nlp . vocab , "apples" , patterns )
doc = phrasex ( doc )
for apple in doc . _ . apples :
  print ( apple )

> >> Melrose
> >> McIntosh

Sentx

Die Sentx Pipe teilt die Sätze in einem Text auf. Es modifiziert Tokens ' IS_SENT_START -Attribut, sodass es obligatorisch ist, es vor Parserrohr in der Spacy -Pipeline hinzuzufügen:

 from spacy import load as spacy_load
from spikex . pipes import SentX
from spikex . defaults import spacy_version

if spacy_version >= 3 :
  from spacy . language import Language

  @ Language . factory ( "sentx" )
  def create_sentx ( nlp , name ):
      return SentX ()

nlp = spacy_load ( "en_core_web_sm" )
sentx_pipe = SentX () if spacy_version < 3 else "sentx"
nlp . add_pipe ( sentx_pipe , before = "parser" )
doc = nlp ( "A little sentence. Followed by another one." )
for sent in doc . sents :
  print ( sent )

> >> A little sentence .
> >> Followed by another one .

Das sind alles Leute

Fühlen Sie sich frei zu beitragen und Spaß zu haben!

Expandieren

spikex

Spikex - Spacy Pipes für die Wissensextraktion

Was ist neu in Spikex 0.5.0

Rohre

Werkzeuge

Installieren Sie Spikex

Pip

Verwendung

Voraussetzungen

Wikigraph

Auto

Handbuch

Match

Wikipagex

Clusterx

Abbrx

Labelx

Phrasex

Sentx

Das sind alles Leute

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express