Neologdn
Neologdn ist ein japanischer Textnormalizer für Mecab-Neologd.
Die Normalisierung basiert auf den Regeln der Neologd: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja
Beiträge sind willkommen!
Hinweis: Das Installieren dieses Moduls erfordert C ++ 11 Compiler.
Installation
$ pip installieren neologdn
Verwendung
import neologdn
neologdn . normalize ( "ハンカクカナ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号!?@#" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰~イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( " PRML 副 読 本 " )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" ) # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" ) # Default parameter
# => '19952001年'
Benchmark
# Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd
% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Neologdn ist etwa x1.43 schneller als Beispielcode.
Details werden als unten beschrieben
Lizenz
Apache -Softwarelizenz.
Beitrag
Beiträge sind willkommen! Siehe: https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md
Zitiert von
Buch
Yamamoto Kazuhide. Elementartechniken der Textverarbeitung. Moderne Wissenschaftler. S.41. 2021.
Blog
- [Bibliothek Einführung] Textnormalisierungsbibliothek Neologdn: https://diatonic.codes/blog/neologdn/
- Vorverarbeitungsberechtigter japanischer Text: Neologdn, Großbuchstaben, Kleinbuchstaben, Unicode-Normalisierung-Tuttieees Blog: https://tuttieee.hatenablog.com/entry/ja-nlp-process
- ▲ Die heutige Funktion == neologdn.normalize () == - TPT -Blog: https://ds-blog.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%E6%97%A5%E3%81%AE%E9%96%A2%3 <B0%3Dane
- Erfahren Sie mehr über NLP: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
- Rufen Sie die Python -Bibliothek für Textnormalisierung von matlab #python - Qiita: https://qiita.com/aoimidori/items/ab5a4383b5a7bb307bad an.
- Einführung des Vorverarbeitungsverfahrens für die Verarbeitung natürlicher Sprache mit Python Code | Einführung der KI -Nutzung und KI -Implementierungsfälle | Einführung von AI-Nutzungs- und KI-Implementierungsfällen: https://www.matrixflow.net/case-study/75/
- Japanisches Vorverarbeitungs -Memo mit Python | Datum Studio Co., Ltd.: https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5% E6%9c%AC%E8%AA%9E%E5%89%8d%e5%87%A6%E7%90%86%E5%82%E5%BF%98%E9%8c%B2/
- Vorbehandlung, Vorbehandlung und Vorbehandlung (natürliche Sprachverarbeitung: Japanische Ausgabe) | Narudesu: https://note.com/narudesu/n/na35de30a583a
- Neologd.normalisieren mit Abkürzungschlüssel: https://scrapbox.io/ushio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%88%82%AB%E3%83%83%E3%88%E3%AD <Be3%83%83%83%83%83%83%Bcc
- Erstellen einer Umgebung für die Verarbeitung natürlicher Sprache mit Python #Python - Qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
- Python normalisieren Beispiele: https://python.hotexamples.com/examples/neologdn/-/normalize/python-normalize-function-examples.html
- Shishimaro Co., Ltd. (CH-4) Analyse von Chabsa-Datensätzen unter Verwendung einer potenziellen Dirichlet-Allokation (LDA): https://shishimaro.co.jp/blog/ai/538
- Vorverarbeitung japanische Dokumente vor der Morpheme -Analyse (Python) - Ke Diary: https://ohke.hateblo.jp/entry/2019/02/09/141500
- Künstliche Intelligenz verstehen, die Sprache verstehen! ? Eine gründliche Erläuterung der Vorverarbeitung von Daten, die für die Verarbeitung natürlicher Sprache mit Python wichtig sind | AI Research Institute: https://ai-kenkyujo.com/programming/make-ai-Verstand-the-language/
- Erstellen Sie ein MECAB -User Dictionary, das die neueste Wikipedia - Neologd -Erweiterung | widerspiegelt | Plakome: https://purakome.net/mecab/addwiki/
- [Einführung in die Verarbeitung natürlicher Sprache] Verarbeitung von Sätzen mit Stoppwörtern und Normalisierung | Mynavi Engineer Blog: https://engineerblog.mynavi.jp/technology/nlp_stopword/
- Unified Notation [Natural Language Processing Reiskuchen Shop]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1%A8%A8%A8%98%E7%B1%B8%80
- Erstellen von T5 -Textgenerierungsmodell mit Pytorch - Einfaches Üben mit Transferlernen in Transformatoren - Lehrlingsdatenwissenschaftler HideAway: https://www.dskomei.com/entry/2021/09/28/110016
- Gehen mit dem Elefanten: Einfacher Textmining mit Goolge Colab (japanische Vorverarbeitung): https://walking-ephant.blogspot.com/2023/07/textmining-normalized.html
- [Lassen Sie uns natürliche Sprachverarbeitung (NLP) in Python implementieren! ] Eine gründliche Erklärung des Wissens, das Sie lernen müssen! -Die Vorderseite der Offshore-Entwicklung von Vietnam von Mattock Inc .: https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
- Tools [Digital Humanities Japan: Ressourcen -Wiki]: https://dhjapan.org/wiki/doku.php?id=tools
- Ich habe moderne saisonale Worte in Python | nachgeschlagen | Aidemy | AIDEMY AI -Programmierlerndienst ab 10 Sekunden [IDEMY]: https://aidemy.net/magazine/703/