? sedang berlangsung
Perpustakaan Python Menggunakan Pengolahan Bahasa Alami (NLP) untuk dengan mudah dan cepat membersihkan teks.
Automaticaly Tokenize Teks, Hapus tanda baca dan karakter khusus, menormalkan kasing, menghapus stopword dalam berbagai bahasa, kata batang ... dengan perpustakaan sederhana namun dapat disesuaikan ini.
Instal :
PIP menginstal pytext_cleaner
Contoh :
from pytext_cleaner import TextCleaner
cleaner = TextCleaner()
cleaner.settings = ['rm_punctuation', 'rm_numeric', 'lowerize']
cleaner.lang_setting = ['italian', 'french']
clean_text = cleaner.clean_text(string_to_clean)
Pengaturan Default : ['rm_punctuation', 'rm_numeric', 'lowerize', 'rm_stopwords']
Pengaturan yang tersedia adalah:
Pengaturan Bahasa Default : ['english']
Untuk memasukkan atau mengecualikan Stopwords :
cleaner.white_list = ['words', 'to', 'include']
cleaner.black_list = ['words', 'to', 'exclude']
Ubah Jenis Pengembalian :
Secara default, text_cleaner mengembalikan string yang dimodifikasi.
Untuk mengembalikan daftar token, tambahkan tokenize = true:
cleaner.clean_text(string_to_clean, tokenize=True)