? em andamento
Biblioteca Python usando o Processamento de Linguagem Natural (PNL) para limpar o texto de maneira fácil e rápida.
Tokenize automaticamente o texto, remova a pontuação e os caracteres especiais, normalize o gabinete, remova as palavras de parada em vários idiomas, as palavras do STEM ... com esta biblioteca simples e personalizável.
Instalar :
pip install pytext_cleaner
Exemplo :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
Configurações padrão : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
As configurações disponíveis são:
Configurações de idioma padrão : ['english']
Para incluir ou excluir palavras de parada :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
Alterar o tipo de retorno :
Por padrão, text_cleaner retorna uma string modificada.
Para retornar da lista de tokens, adicione tokenize = true:
cleaner.clean_text(string_to_clean, tokenize=True)