text_cleaner
1.0.0
?進行中
自然言語処理(NLP)を使用したPythonライブラリを使用して、テキストを簡単かつ迅速にクリーニングします。
Automaticalyはテキストをトークン化し、句読点と特殊文字を削除し、ケースを正規化し、さまざまな言語でストップワードを削除し、単語を盗みました...このシンプルでありながらカスタマイズ可能なライブラリを使用します。
インストール:
pipインストールpytext_cleaner
例:
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
デフォルト設定: ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
利用可能な設定は次のとおりです。
デフォルトの言語設定: ['english']
ストップワードを含める、または除外するには:
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
返品タイプを変更します:
デフォルトでは、text_cleanerが変更された文字列を返します。
トークンのリストを返すには、tokenize = trueを追加します:
cleaner.clean_text(string_to_clean, tokenize=True)