Unduh clean text - Unduh Kode Sumber clean text

clean text

Kode sumber lainnya

1.0.0

Unduh

`clean-text`

Konten yang dibuat pengguna di web dan di media sosial sering kotor. Preprocess data terkikis Anda dengan clean-text untuk membuat representasi teks yang dinormalisasi. Misalnya, putar input yang rusak ini:

A bunch of \u2018new\u2019 references, including [Moana](https://en.wikipedia.org/wiki/Moana_%282016_film%29).


»Yóù àré     rïght &lt;3!«

ke dalam output bersih ini:

A bunch of 'new' references, including [moana](<URL>).

"you are right <3!"

clean-text menggunakan aturan FTFY, Unidecode, dan banyak kerajinan tangan, yaitu, Regex.

Instalasi

Untuk menginstal paket unidecode berlisensi GPL di samping:

pip install clean-text[gpl]

Anda mungkin ingin menjauhkan diri dari GPL:

pip install clean-text

NB: Paket ini bernama clean-text dan bukan cleantext .

Jika unidecode tidak tersedia, clean-text akan menggunakan unicodedata Python. Normalisasi untuk transliterasi. Transliterasi ke simbol ASCII terdekat melibatkan pemetaan secara manual, yaitu, ê ke e . Pemetaan unidecode adalah Superiour tetapi Unicodedata sudah cukup. Namun, Anda mungkin ingin menonaktifkan fitur ini sama sekali tergantung pada data Anda dan menggunakan kasing.

Untuk memperjelas: ada ketidakkonsistenan antara memproses teks dengan atau tanpa unidecode .

Penggunaan

 from cleantext import clean

clean ( "some input" ,
    fix_unicode = True ,               # fix various unicode errors
    to_ascii = True ,                  # transliterate to closest ASCII representation
    lower = True ,                     # lowercase text
    no_line_breaks = False ,           # fully strip line breaks as opposed to only normalizing them
    no_urls = False ,                  # replace all URLs with a special token
    no_emails = False ,                # replace all email addresses with a special token
    no_phone_numbers = False ,         # replace all phone numbers with a special token
    no_numbers = False ,               # replace all numbers with a special token
    no_digits = False ,                # replace all digits with a special token
    no_currency_symbols = False ,      # replace all currency symbols with a special token
    no_punct = False ,                 # remove punctuations
    replace_with_punct = "" ,          # instead of removing punctuations you may replace them
    replace_with_url = "<URL>" ,
    replace_with_email = "<EMAIL>" ,
    replace_with_phone_number = "<PHONE>" ,
    replace_with_number = "<NUMBER>" ,
    replace_with_digit = "0" ,
    replace_with_currency_symbol = "<CUR>" ,
    lang = "en"                       # set to 'de' for German special handling
)

Pilih dengan hati -hati argumen yang sesuai dengan tugas Anda. Parameter default tercantum di atas.

Anda juga hanya dapat menggunakan fungsi spesifik untuk pembersihan. Untuk ini, lihat kode sumbernya.

Bahasa yang didukung

Sejauh ini, hanya bahasa Inggris dan Jerman yang sepenuhnya didukung. Ini harus bekerja untuk sebagian besar bahasa Barat. Jika Anda membutuhkan penanganan khusus untuk bahasa Anda, jangan ragu untuk berkontribusi. ?

Menggunakan `clean-text` dengan `scikit-learn`

Ada juga API yang kompatibel dengan scikit-learn untuk digunakan di jaringan pipa Anda. Semua parameter di atas bekerja di sini juga.

pip install clean-text[gpl,sklearn]
pip install clean-text[sklearn]

 from cleantext . sklearn import CleanTransformer

cleaner = CleanTransformer ( no_punct = False , lower = False )

cleaner . transform ([ 'Happily clean your text!' , 'Another Input' ])

Perkembangan

Gunakan puisi.

Berkontribusi

Jika Anda memiliki pertanyaan , menemukan bug atau ingin mengusulkan fitur baru, lihat halaman masalah.

Permintaan tarik sangat disambut ketika mereka memperbaiki bug atau meningkatkan kualitas kode.

Jika Anda tidak menyukai output dari clean-text , pertimbangkan untuk menambahkan tes dengan input spesifik Anda dan output yang diinginkan.

Pekerjaan terkait

Paket Pembersihan Teks Generik

https://github.com/pudo/normality
https://github.com/davidmogar/cucco
https://github.com/lyeoni/prenlp
https://github.com/s/preprocessor
https://github.com/artefactory/nlpretext
https://github.com/cbaziotis/ekphrasis

Perpustakaan NLP penuh dengan pembersihan teks

https://github.com/chartbeat-labs/texticy
https://github.com/jbesomi/texthero

Hapus atau ganti string

https://github.com/vi3k6i5/flashtext
https://github.com/ddelange/retrie

Mendeteksi tanggal

https://github.com/scrapinghub/dateParser

Bersihkan data merangkak umum yang besar

https://github.com/faceBookresearch/cc_net

Ucapan Terima Kasih

Dibangun di atas karya Burton DeWilde untuk tekstasi.

Lisensi

Apache

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 33.96KB
Berasal dari Github

Aplikasi Terkait

Game Menganggur Bersih Mendalam

2024-10-03
Teks Dengan Yesus Cina

2023-08-23
Teks Dengan Yesus

2023-08-17
Teks Dengan Yesus versi Cina

2023-08-17
Teks atau Mati

2023-07-03
Bersih Berderit

2022-08-05

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua

clean text

clean-text