text_cleaner
1.0.0
?进行中
Python库使用自然语言处理(NLP)轻松,快速清洁文本。
自动令牌化文本,删除标点符号和特殊字符,使情况归一化,用各种语言删除停止字样,使用此简单但可自定义的库。
安装:
PIP安装pytext_cleaner
例子:
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
默认设置: ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
可用设置是:
默认语言设置: ['english']
包括或排除停止词:
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
更改返回类型:
默认情况下,text_cleaner返回修改后的字符串。
要返回令牌列表,请添加令牌= true:
cleaner.clean_text(string_to_clean, tokenize=True)