? en curso
Biblioteca de Python utilizando el procesamiento del lenguaje natural (PNL) para limpiar el texto fácil y rápidamente.
El texto automático de tokenizar, eliminar la puntuación y los caracteres especiales, normalizar el caso, eliminar las palabras de parada en varios idiomas, las palabras STEM ... con esta biblioteca simple pero personalizable.
Instalar :
PIP install Pytext_cleaner
Ejemplo :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
Configuración predeterminada : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
La configuración disponible es:
Configuración de idioma predeterminada : ['english']
Para incluir o excluir las palabras de parada :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
Cambiar el tipo de retorno :
Por defecto, Text_Cleaner devuelve una cadena modificada.
Para devolver la lista de tokens, agregue tokenize = true:
cleaner.clean_text(string_to_clean, tokenize=True)