Unduh neologdn - Unduh Kode Sumber neologdn

neologdn

Kode sumber lainnya

v0.5.2

Unduh

Neologdn

Neologdn adalah Normalizer Teks Jepang untuk Mecab-Neologd.

Normalisasi didasarkan pada aturan neologd: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja

Kontribusi dipersilakan!

Catatan: Memasang modul ini membutuhkan kompiler C ++ 11.

Instalasi

 $ Pip Instal Neologdn

Penggunaan

 import neologdn
neologdn . normalize ( "ﾊﾝｶｸｶﾅ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号！？＠＃" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰～イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( "　　　ＰＲＭＬ　　副　読　本　　　" )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" )  # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" )  # Default parameter
# => '19952001年'

Benchmark

 # Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd

% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Neologdn sekitar x1.43 lebih cepat dari kode sampel.

Detail digambarkan sebagai buku catatan di bawah ini: https://github.com/ikegami-ykino/neologdn/blob/master/benchmark/benchmark.ipynb

Lisensi

Lisensi Perangkat Lunak Apache.

Kontribusi

Kontribusi dipersilakan! Lihat: https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md

Dikutip oleh

Buku

Yamamoto Kazuhide. Teknik elemen pemrosesan teks. Ilmuwan Modern. Hal.41. 2021.

Blog

[Perpustakaan Pendahuluan] Perpustakaan Normalisasi Teks Neologdn: https://diatonic.codes/blog/neologdn/
Preprocessing Teks Jepang: Neologdn, huruf besar, huruf kecil, normalisasi unicode-Blog Tuttieee: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
▲ Fungsi hari ini == neologdn.normalize () == - TPT Blog: https://ds-blog.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%AC%E6%97%A5%3D%AM .NOLOGDN_NOLOLOGE
Pelajari tentang NLP: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
Memanggil Pustaka Python untuk normalisasi teks dari Matlab #python - Qiita: https://qiita.com/aoimidori/items/ab5a4383b5a7bb307bad
Memperkenalkan prosedur preprocessing untuk pemrosesan bahasa alami dengan kode python | Memperkenalkan pemanfaatan AI dan kasus implementasi AI | Memperkenalkan pemanfaatan AI dan kasus implementasi AI: https://www.matrixflow.net/case-study/75/
Memo preprocessing Jepang menggunakan Python | Datum Studio Co., Ltd.: https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5% E6%9C%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%99%E5%BF%98%E9%8C%B2/
Pretreatment, Pretreatment, dan Pretreatment (Pemrosesan Bahasa Alami: Edisi Jepang) | Narudesu: https://note.com/narudesu/n/na35de30a583a
Neologd.normalize dengan kunci pintasan: https://scrapbox.io/nishio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%88%E3%82%AB %E333333333333333%
Membangun lingkungan untuk pemrosesan bahasa alami menggunakan python #python - qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
Python menormalkan contoh: https://python.hotexamples.com/examples/neologdn/-/normalize/python-normalize-function-examples.html
Shishimaro Co., Ltd. (CH-4) Analisis Dataset CHABSA Menggunakan Alokasi Dirichlet Potensial (LDA): https://shishimaro.co.jp/blog/ai/538
Preprocessing Dokumen Jepang Sebelum Analisis Morfem (Python) - Ke Diary: https://ohke.hateblo.jp/entry/2019/02/09/141500
Buat Kecerdasan Buatan Memahami Bahasa! ? Penjelasan menyeluruh tentang preprocessing data yang penting untuk pemrosesan bahasa alami menggunakan Python | AI Research Institute: https://ai-kenkyujo.com/programming/make-ounderstand-the-language/
Buat Kamus Pengguna Mecab yang mencerminkan Wikipedia terbaru - Ekstensi Neologd | Plakome: https://purakome.net/mecab/addwiki/
[Pengantar Pemrosesan Bahasa Alami] Memproses kalimat menggunakan kata -kata berhenti dan normalisasi | Blog Insinyur Mynavi: https://engineerblog.mynavi.jp/technology/nlp_stopword/
Notasi Terpadu [Bahasa Alami Pemrosesan Toko Kue Padi]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1%A8%A8%A8%98%E7%B5%B1%E4%B8%80%80%98%98%B5%B5%B1%B8%B8%80%80%98%98%B5%B5%B5%B8%B8%80%80%
Membangun T5 Model Pembuatan Teks Menggunakan PyTorch - Praktek Mudah Dengan Pembelajaran Transfer di Transformers - Magang Data Scientist's Hideaway: https://www.dskomei.com/entry/2021/09/28/110016
Berjalan dengan Gajah: Penambangan Teks Mudah Dengan Goolge Colab (Pra-Prosesing Jepang): https://walking-elephant.blogspot.com/2023/07/text-mining-normalized.html
[Mari kita terapkan pemrosesan bahasa alami (NLP) di Python! ] Penjelasan menyeluruh tentang pengetahuan yang perlu Anda pelajari! -garis depan pengembangan lepas pantai Vietnam oleh Mattock Inc.: Https://mattock.jp/blog/artitificial-intelligence/nlp/lets-implement-nlp-in-python/
Alat [Humaniora Digital Jepang: Wiki Sumber Daya]: https://dhjapan.org/wiki/doku.php?id=tools
Saya mencari kata -kata musiman modern dalam Python | AIDEMY | AIDEMY AI Layanan Pembelajaran Pemrograman Mulai dalam 10 detik [idemy]: https://aidemy.net/magazine/703/

Memperluas

Informasi Tambahan

Versi v0.5.2
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 99.84KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua