clean-text Konten yang dibuat pengguna di web dan di media sosial sering kotor. Preprocess data terkikis Anda dengan clean-text untuk membuat representasi teks yang dinormalisasi. Misalnya, putar input yang rusak ini:
A bunch of \u2018new\u2019 references, including [Moana](https://en.wikipedia.org/wiki/Moana_%282016_film%29).
»Yóù àré rïght <3!«ke dalam output bersih ini:
A bunch of 'new' references, including [moana](<URL>).
"you are right <3!" clean-text menggunakan aturan FTFY, Unidecode, dan banyak kerajinan tangan, yaitu, Regex.
Untuk menginstal paket unidecode berlisensi GPL di samping:
pip install clean-text[gpl]Anda mungkin ingin menjauhkan diri dari GPL:
pip install clean-text NB: Paket ini bernama clean-text dan bukan cleantext .
Jika unidecode tidak tersedia, clean-text akan menggunakan unicodedata Python. Normalisasi untuk transliterasi. Transliterasi ke simbol ASCII terdekat melibatkan pemetaan secara manual, yaitu, ê ke e . Pemetaan unidecode adalah Superiour tetapi Unicodedata sudah cukup. Namun, Anda mungkin ingin menonaktifkan fitur ini sama sekali tergantung pada data Anda dan menggunakan kasing.
Untuk memperjelas: ada ketidakkonsistenan antara memproses teks dengan atau tanpa unidecode .
from cleantext import clean
clean ( "some input" ,
fix_unicode = True , # fix various unicode errors
to_ascii = True , # transliterate to closest ASCII representation
lower = True , # lowercase text
no_line_breaks = False , # fully strip line breaks as opposed to only normalizing them
no_urls = False , # replace all URLs with a special token
no_emails = False , # replace all email addresses with a special token
no_phone_numbers = False , # replace all phone numbers with a special token
no_numbers = False , # replace all numbers with a special token
no_digits = False , # replace all digits with a special token
no_currency_symbols = False , # replace all currency symbols with a special token
no_punct = False , # remove punctuations
replace_with_punct = "" , # instead of removing punctuations you may replace them
replace_with_url = "<URL>" ,
replace_with_email = "<EMAIL>" ,
replace_with_phone_number = "<PHONE>" ,
replace_with_number = "<NUMBER>" ,
replace_with_digit = "0" ,
replace_with_currency_symbol = "<CUR>" ,
lang = "en" # set to 'de' for German special handling
)Pilih dengan hati -hati argumen yang sesuai dengan tugas Anda. Parameter default tercantum di atas.
Anda juga hanya dapat menggunakan fungsi spesifik untuk pembersihan. Untuk ini, lihat kode sumbernya.
Sejauh ini, hanya bahasa Inggris dan Jerman yang sepenuhnya didukung. Ini harus bekerja untuk sebagian besar bahasa Barat. Jika Anda membutuhkan penanganan khusus untuk bahasa Anda, jangan ragu untuk berkontribusi. ?
clean-text dengan scikit-learnAda juga API yang kompatibel dengan scikit-learn untuk digunakan di jaringan pipa Anda. Semua parameter di atas bekerja di sini juga.
pip install clean-text[gpl,sklearn]
pip install clean-text[sklearn] from cleantext . sklearn import CleanTransformer
cleaner = CleanTransformer ( no_punct = False , lower = False )
cleaner . transform ([ 'Happily clean your text!' , 'Another Input' ])Gunakan puisi.
Jika Anda memiliki pertanyaan , menemukan bug atau ingin mengusulkan fitur baru, lihat halaman masalah.
Permintaan tarik sangat disambut ketika mereka memperbaiki bug atau meningkatkan kualitas kode.
Jika Anda tidak menyukai output dari clean-text , pertimbangkan untuk menambahkan tes dengan input spesifik Anda dan output yang diinginkan.
Dibangun di atas karya Burton DeWilde untuk tekstasi.
Apache