text_cleaner
1.0.0
- การดำเนินการ
Library Python โดยใช้การประมวลผลภาษาธรรมชาติ (NLP) เพื่อทำความสะอาดข้อความได้อย่างง่ายดายและรวดเร็ว
ข้อความโทเค็นโดยอัตโนมัติลบเครื่องหมายวรรคตอนและอักขระพิเศษทำให้เคสเป็นปกติลบคำสั่งหยุดในภาษาต่าง ๆ คำสเต็ม ... ด้วยไลบรารีที่เรียบง่าย แต่ปรับแต่งได้นี้
ติดตั้ง :
PIP ติดตั้ง pytext_cleaner
ตัวอย่าง :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
การตั้งค่าเริ่มต้น : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
การตั้งค่าที่มีอยู่ คือ:
การตั้งค่าภาษาเริ่มต้น : ['english']
เพื่อรวมหรือไม่รวมคำหยุด :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
เปลี่ยนประเภทผลตอบแทน :
โดยค่าเริ่มต้น text_cleaner ส่งคืนสตริงที่แก้ไขแล้ว
หากต้องการกลับรายการโทเค็นให้เพิ่ม tokenize = true:
cleaner.clean_text(string_to_clean, tokenize=True)