text_cleaner
1.0.0
? 진행 중
NLP (Natural Language Processing)를 사용하여 텍스트를 쉽고 빠르게 청소하기 위해 Python Library.
자동적으로 텍스트를 토큰 화하고 구두점 및 특수 문자를 제거하고 케이스를 정규화하고 다양한 언어로 스톱워드를 제거하고 간단하지만 사용자 정의 할 수있는 라이브러리를 사용하여 스템 단어를 제거하십시오.
설치하다 :
PIP PYTEXT_CLEANER를 설치하십시오
예 :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
기본 설정 : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
사용 가능한 설정은 다음과 같습니다.
기본 언어 설정 : ['english']
중단 단어를 포함 시키거나 제외하려면 :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
반환 유형 변경 :
기본적으로 Text_cleaner는 수정 된 문자열을 반환합니다.
토큰 목록을 반환하려면 tokenize = true를 추가하십시오.
cleaner.clean_text(string_to_clean, tokenize=True)