? en cours
Bibliothèque Python utilisant le traitement du langage naturel (NLP) pour nettoyer facilement et rapidement le texte.
Tokenize automatique du texte, supprimer la ponctuation et les caractères spéciaux, normaliser le cas, supprimer les mots arrêtés dans divers langages, les mots STEM ... avec cette bibliothèque simple mais personnalisable.
Installer :
pip install pytext_cleaner
Exemple :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
Paramètres par défaut : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
Les paramètres disponibles sont:
Paramètres de la langue par défaut : ['english']
Pour inclure ou exclure les mots arrêtés :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
Modifier le type de retour :
Par défaut, Text_Cleaner renvoie une chaîne modifiée.
Pour revenir de la liste des jetons, ajoutez Tokenize = true:
cleaner.clean_text(string_to_clean, tokenize=True)