Dieses Repository wird nicht mehr aufrechterhalten
TextPipe: Metadaten aus dem Text reinigen und extrahieren
textpipe ist ein Python -Paket zum Konvertieren von Rohtext in saubere, lesbare Text und Extrahieren von Metadaten aus diesem Text. Zu den Funktionen gehören das Umwandlung von Rohtext in lesbare Text, indem HTML -Tags entfernt und Metadaten wie die Anzahl der Wörter und benannten Entitäten aus dem Text extrahiert werden.
Vision: Der Zen von Textpipe
- Entworfen für den Einsatz in Produktionspipelines ohne Aufsicht bei Erwachsenen.
- Zu den wiederaufladbaren Batterien enthalten: Geben Sie gesunde Standardeinstellungen und klare Beispiele zur Anpassung an.
- Eine einheitliche Schnittstelle mit dünnen Wrappern um hochmoderne NLP-Pakete.
- So sprachunabhängig wie möglich.
- Bringen Sie Ihre eigenen Modelle mit.
Merkmale
- Reinigen Sie rohen Text, indem Sie
HTML und andere unlesbare Konstrukte entfernen - Identifizieren Sie die Textsprache
- Extrahieren Sie die Anzahl der Wörter, Anzahl der Sätze, benannten Entitäten aus einem Text
- Berechnen Sie die Komplexität eines Textes
- Erhalten Sie Textmetadaten, indem Sie eine Pipeline mit allen gewünschten Elementen angeben
- Stimmung erhalten (Polarität und Subjektivitätsbewertung)
- Generiert Wortzahlen
- Berechnet Minhash für eine billige Ähnlichkeitsschätzung von Dokumenten
Installation
Es wird empfohlen, Textpipe mit einer virtuellen Umgebung zu installieren.
Erstellen Sie zunächst Ihre virtuelle Umgebung mit virtualenv oder virtualenvwrapper.
Verwenden von Venv, wenn Ihr Standard -Interpreter Python3.6 ist
- Verwenden von Virtualenv.
virtualenv venv -p python3.6
- Verwenden von virtuellenvwrapper
mkvirtualenv textpipe -p python3.6
- Installieren Sie TextPipe mit PIP.
- Installieren Sie die erforderlichen Pakete mit Anforderungen.txt .
pip install -r requirements.txt
Ein Hinweis zum Download -Modell des Spacy -Downloads
Während die Datei der Anforderungen.txt, die mit dem Paket geliefert werden, nach dem Modell von Spact's EN_CORE_WEB_SM geliefert werden, kann dies je nach Modell und Sprache geändert werden, die Sie für Ihre beabsichtigte Verwendung benötigen. Weitere Informationen finden Sie unter den Seite von Spacy.ios Seite auf ihren verschiedenen Modellen.
Nutzungsbeispiel
> >> from textpipe import doc , pipeline
> >> sample_text = 'Sample text! <!DOCTYPE>'
> >> document = doc . Doc ( sample_text )
> >> print ( document . clean )
'Sample text!'
> >> print ( document . language )
'en'
> >> print ( document . nwords )
2
> >> pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
> >> print ( pipe ( sample_text ))
{ 'CleanText' : 'Sample text!' , 'NWords' : 3 } Um die vorhandenen Textreizvorgänge mit Ihren eigenen proprietären Operationen zu erweitern;
test_pipe = pipeline . Pipeline ([ 'CleanText' , 'NWords' ])
def custom_op ( doc , context = None , settings = None , ** kwargs ):
return 1
custom_argument = { 'argument' : 1 }
test_pipe . register_operation ( 'CUSTOM_STEP' , custom_op )
test_pipe . steps . append (( 'CUSTOM_STEP' , custom_argument ))Beitragen
Sehen Sie sich die Richtlinien für Mitwirkende an.
Änderungen
0,12.1
- Beulen Redis, TQDM, Pyling
0,12.0
- Beulenversionen vieler Abhängigkeiten, einschließlich Textak. Die Ergebnisse für die Treuhandelxtraktion änderten sich.
0.11.9
- Enthüllt willkürliche Eigenschaften der Spacing
ents
0,11,8
- Entellt Spacys
cats enthüllt
0.11.7
- Bumps Spacy- und Redis -Versionen
0.11.6
- Behebt den Fehler, bei dem das Gensim -Modell nicht in Pipeline zwischengespeichert wird
0,11,5
- Erhöhen Sie TextPipemissingmodelexception anstelle von KeyError
0.11.4
- Stimmt Spaces und Datasketch -Abhängigkeiten an
0.11.1
- Ersetzt die Kodazität durch pylint auf CI
- Behebung von Pylint -Problemen
0.11.0
- Fügt Wrapper um Gensim -Key -Vektoren hinzu, um Dokument -Einbettungen aus Redis -Cache zu konstruieren
0.9.0
- Fügt die Funktionalität hinzu, um Dokument -Einbettungen mithilfe eines Gensim Word2VEC -Modells zu berechnen
0,8,6
- Entfernt nicht standardmäßige UTF -Zeichen vor der Erkennung der Sprache
0,8,5
0,8,4
- Befehl zerbrochener Installation beheben
0,8,3
- Befehl zerbrochener Installation beheben
0,8,2
- Fix Copy-Paste-Fehler in der Wortvektoraggregation (#118)
0,8,1
- Behebt Fehler in mehreren Operationen, die KWARGS nicht akzeptierten
0,8,0
0,7,2
- Stifte Spacy- und Musterversionen (mit festgesteckten LXML)
0,7,0
- Ändern Sie die Registrierung der Operation von Liste zu DICT
- Globale Pipeline -Daten sind über den
context KWARG hinweg verfügbar - Laden Sie benutzerdefinierte Operationen mithilfe der
register_operation in Pipeline - Benutzerdefinierte Schritte (Operationen) mit Argumenten