import texthero as hero
import pandas as pd
df = pd . read_csv (
"https://github.com/jbesomi/texthero/raw/master/dataset/bbcsport.csv"
)
df [ 'tfidf' ] = (
df [ 'text' ]
. pipe ( hero . clean )
. pipe ( hero . tfidf )
)
df [ 'kmeans_labels' ] = (
df [ 'tfidf' ]
. pipe ( hero . kmeans , n_clusters = 5 )
. astype ( str )
)
df [ 'pca' ] = df [ 'tfidf' ]. pipe ( hero . pca )
hero . scatterplot ( df , 'pca' , color = 'kmeans_labels' , title = "K-means BBC Sport news" ) > >> import texthero as hero
> >> import pandas as pd
> >> text = "This sèntencé (123 /) needs to [OK!] be cleaned! "
> >> s = pd . Series ( text )
> >> s
0 This sèntencé ( 123 / ) needs to [ OK !] be cleane ...
dtype : objectEntfernen Sie alle Ziffern:
> >> s = hero . remove_digits ( s )
> >> s
0 This sèntencé ( / ) needs to [ OK !] be cleaned !
dtype : objectZiffern entfernen ersetzt nur Ziffernblöcke. Die Ziffern in der Zeichenfolge "Hello123" werden nicht entfernt. Wenn wir alle Ziffern entfernen möchten, müssen Sie nur auf False einstellen.
Entfernen Sie alle Arten von Klammern und deren Inhalt.
> >> s = hero . remove_brackets ( s )
> >> s
0 This sèntencé needs to be cleaned !
dtype : objectDiakritika entfernen.
> >> s = hero . remove_diacritics ( s )
> >> s
0 This sentence needs to be cleaned !
dtype : objectInterpunktion entfernen.
> >> s = hero . remove_punctuation ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectEntfernen Sie zusätzliche weiße Bereiche.
> >> s = hero . remove_whitespace ( s )
> >> s
0 This sentence needs to be cleaned
dtype : objectManchmal wollen wir auch Stoppwörter loswerden.
> >> s = hero . remove_stopwords ( s )
> >> s
0 This sentence needs cleaned
dtype : object SMTHERO besteht aus vier Modulen: preprocessing.py, nlp.py, repräsentation.py und visualisierung.py.
Geltungsbereich: Erstellen Sie Textdaten für die weitere Analyse.
Vollständige Dokumentation: Vorverarbeitung
Geltungsbereich: Geben Sie klassische Tools zur Verarbeitung natürlicher Sprache wie named_entity und noun_phrases an.
Vollständige Dokumentation: NLP
Umfang: Karten Sie Textdaten in Vektoren und führen Sie die Dimensionalitätsreduzierung durch.
Unterstützte Repräsentationsalgorithmen :
count )tfidf )Unterstützte Clustering -Algorithmen:
kmeans )dbscan )meanshift )Unterstützte Algorithmen zur Reduzierung von Dimensionalität :
pca )tsne )nmf )Vollständige Dokumentation: Darstellung
Geltungsbereich: Fassen Sie die wichtigsten Fakten zu den Textdaten zusammen und visualisieren Sie sie. Dieses Modul ist aufmerksam. Es ist praktisch für alle, die eine schnelle Lösung benötigen, um auf dem Bildschirm die Textdaten zu visualisieren, beispielsweise während einer Text -Erkundungsdatenanalyse (EDA).
Unterstützte Funktionen:
scatterplot )top_words )Vollständige Dokumentation: Visualisierung
Manchmal wollen wir nur Dinge, oder? Texteno hilft dabei. Es erleichtert die Dinge und gibt dem Entwickler mehr Zeit, um sich auf seine benutzerdefinierten Anforderungen zu konzentrieren. Wir glauben, dass der Reinigungstext nur eine Minute dauern sollte. Gleiches gilt für die Suche nach dem wichtigsten Teil eines Textes und dasselbe, um ihn darzustellen.
Auf sehr pragmatische Weise hat SMTHERO nur ein Ziel: den Entwickler Freizeit machen. Das Arbeiten mit Textdaten kann Schmerz sein, und in den meisten Fällen kann eine Standardpipeline ziemlich gut sein. Es ist immer Zeit, zurück zu kommen und frühere Arbeiten zu verbessern.
"SMTHERO wurde von einem Mitglied der NLP-Community für die gesamte NLP-Community entwickelt"
SMTHERO ist für uns alle NLP-Entwickler und kann weiterhin mit dem kostbaren Beitrag der Gemeinschaft existieren.
Ihr Fachwissen von Python und NLP spielt keine Rolle, jeder kann helfen und jeder ist mehr als willkommen, um einen Beitrag zu leisten!
Sind Sie ein NLP -Experte?
Sind Sie gut darin, Websites zu erstellen?
Die Website wird bald von Docusaurus nach Sphinx verschoben: Lesen Sie dort die offene Ausgabe. Gute Nachrichten: Die Website sieht jetzt aus :) Durchschnittliche Nachrichten: Wir müssen eine Webentwicklung durchführen, um diese Sphinx-Vorlage an unsere Anforderungen anzupassen. Kannst du uns helfen?
Kannst du gut schreiben?
Wahrscheinlich ist dies das wichtigste Stück, das jetzt auf Textero fehlt: Weitere Tutorials und mehr "Erste Schritte".
Wenn Sie gut schreiben können, können Sie uns helfen! Warum fügen Sie nicht zunächst eine FAQ -Seite zur Website hinzu oder erklären Sie, wie Sie eine benutzerdefinierte Pipeline erstellen? Benötigen Sie Hilfe? Wir sind für Sie da.
Bist du gut in Python?
Es gibt viele offene Ausgaben für Techie -Jungs. Welches wählst du?
Wenn Sie nur andere Fragen oder Anfragen haben, geben Sie mir eine Zeile bei jonathanbesomi__at__gmail.com
Die MIT -Lizenz (MIT)
Copyright (C) 2020 SMTHERO
Die Erlaubnis wird hiermit einer Person, die eine Kopie dieser Software und zugehörigen Dokumentationsdateien (der "Software") erhält, kostenlos erteilt, um die Software ohne Einschränkung zu behandeln, einschließlich ohne Einschränkung der Rechte, zu verwenden, zu kopieren, zu modifizieren, zusammenzufassen, zu veröffentlichen, zu veröffentlichen, zu verteilen, zu verteilt, und/oder Kopien der Software zu ermöglichen, um Personen zu beanstanden, an denen die Software zugänglich ist, um die folgenden Bedingungen zu beantragen.
Die oben genannte Copyright -Mitteilung und diese Erlaubnisbekanntmachung müssen in alle Kopien oder wesentlichen Teile der Software enthalten sein.
Die Software wird "wie es ist" ohne Garantie jeglicher Art, ausdrücklich oder stillschweigend bereitgestellt, einschließlich, aber nicht beschränkt auf die Gewährleistung der Handelsfähigkeit, die Eignung für einen bestimmten Zweck und die Nichtverletzung. In keinem Fall sind die Autoren oder Urheberrechtsinhaber für Ansprüche, Schäden oder andere Haftungen haftbar, sei es in einer Vertragsklage, unerbittlich oder auf andere Weise, die sich aus oder im Zusammenhang mit der Software oder anderen Geschäften in der Software ergeben.