? im Gange
Python -Bibliothek mit natürlicher Sprachverarbeitung (NLP), um den Text einfach und schnell zu reinigen.
Automatische Tokenize -Text, die Interpunktion und Sonderzeichen entfernen, den Fall normalisieren, Stopwords in verschiedenen Sprachen entfernen, MINT -Wörter ... mit dieser einfachen, aber anpassbaren Bibliothek.
Installation :
PIP Installieren Sie PyText_Cleaner
Beispiel :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
Standardeinstellungen : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
Verfügbare Einstellungen sind:
Standardspracheinstellungen : ['english']
Stopwords einschließen oder ausschließen :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
Rückgabetyp ändern :
Standardmäßig gibt text_cleaner eine modifizierte Zeichenfolge zurück.
Um die Liste der Token zurückzugeben, fügen Sie Tokenize = true hinzu:
cleaner.clean_text(string_to_clean, tokenize=True)