? в ходе выполнения
Библиотека Python с использованием обработки естественного языка (NLP), чтобы легко и быстро чистить текст.
Автоматический токенизированный текст, удаляйте пунктуацию и специальные символы, нормализуйте корпус, удаляйте стоп -слова на различных языках, слова STEM ... с помощью этой простой, но настраиваемой библиотеки.
Установить :
PIP установить pytext_cleaner
Пример :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
Настройки по умолчанию : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
Доступные настройки :
Настройки языка по умолчанию : ['english']
Чтобы включить или исключить остановки :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
Изменить тип возврата :
По умолчанию Text_Cleaner возвращает измененную строку.
Чтобы вернуть список токенов, добавьте tokenize = true:
cleaner.clean_text(string_to_clean, tokenize=True)