néologDe
Neologdn est un normalisateur de texte japonais pour MecAB-Neologd.
La normalisation est basée sur les règles des Neologd: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja
Les contributions sont les bienvenues!
Remarque: L'installation de ce module nécessite un compilateur C ++ 11.
Installation
$ pip install neologdn
Usage
import neologdn
neologdn . normalize ( "ハンカクカナ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号!?@#" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰~イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( " PRML 副 読 本 " )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" ) # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" ) # Default parameter
# => '19952001年'
Référence
# Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd
% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Neologdn est environ x1,43 plus rapidement que le code d'exemple.
Les détails sont décrits comme le cahier ci-dessous: https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb
Licence
Licence logicielle Apache.
Contribution
Les contributions sont les bienvenues! Voir: https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md
Cité par
Livre
Yamamoto Kazuhide. Techniques élémentaires de traitement de texte. Scientifiques modernes. P.41. 2021.
Blog
- [Introduction de la bibliothèque] Bibliothèque de normalisation du texte Neologdn: https://diatonic.codes/blog/neologdn/
- Prétraitement du texte japonais: Neologdn, majuscule, minuscules, normalisation Unicode - Blog de Tuttieee: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
- ▲ Fonction d'aujourd'hui == Neologdn.Normalize () == - TPT Blog: https://dsblog.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%AC%E6%97%A5%B0%3D%3Dneologdn_normize
- Découvrez NLP: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
- Appel Python Library pour la normalisation du texte de Matlab #Python - Qiita: https://qiita.com/aoimidori/Items/AB5A4383B5A7BB307BAD
- Présentation de la procédure de prétraitement pour le traitement du langage naturel avec le code Python | Présentation des cas d'utilisation de l'IA et de la mise en œuvre de l'IA | Présentation des cas d'utilisation de l'IA et de l'implémentation de l'IA: https://www.matrixflow.net/case-study/75/
- Mémo sur le prétraitement japonais utilisant Python | Datum Studio Co., Ltd.: https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5% E6% 9C% AC% E8% AA% 9E% E5% 89% 8D% E5% 87% A6% E7% 90% 86% E5% 82% 99% E5% BF% 98% E9% 8C% B2 /
- Prétraitement, prétraitement et prétraitement (Traitement du langage naturel: édition japonaise) | Narudesu: https://note.com/narudesu/n/na35de30a583a
- Neologd.normalisée avec clé de raccourci: https://scrapbox.io/nishio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%88%E3%82%AB%E3%83%83%83%83%E3%82%AD%A3%83%BC%E3%81%a7neology
- Construire un environnement pour le traitement du langage naturel à l'aide de Python #Python - Qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
- Python Normalise les exemples: https://python.hotexamples.com/examples/neologdn/-/normalize/python-normalize-function-examples.html
- SHISHIMARO CO., LTD. (CH-4) Analyse des ensembles de données CHABSA Utilisation d'allocation potentielle Dirichlet (LDA): https://shishimaro.co.jp/blog/ai/538
- Prétraitement des documents japonais avant l'analyse du morphème (Python) - Ke Diary: https://ohke.hateblo.jp/entry/2019/02/09/141500
- Faites de l'intelligence artificielle comprendre la langue! ? Une explication approfondie du prétraitement des données importantes pour le traitement du langage naturel à l'aide de Python | Institut de recherche AI: https://ai-kenkyujo.com/programming/make-ai-understand-the-language/
- Créez un dictionnaire utilisateur MECAB qui reflète le dernier Wikipedia - Neologd Extension | Plakome: https://purakome.net/mecab/addwiki/
- [Introduction au traitement du langage naturel] Traitement des phrases à l'aide de mots d'arrêt et de normalisation | Blog d'ingénieur Mynavi: https://engineerblog.mynavi.jp/technology/nlp_stopword/
- Notation unifiée [Traitement du langage naturel Rice Cake Shop]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%B1%A1%A8%E8%A8%98%E7%B5%B1%E4%B8%80
- Création du modèle de génération de texte T5 Utilisation de Pytorch - Pratique facile avec apprentissage du transfert dans Transformers - Apprenti Data Scientist's Hideaway: https://www.dskomei.com/entry/2021/09/28/110016
- Marcher avec l'éléphant: Exploitation de texte facile avec Goolge Colab (pré-procédure japonaise): https://walking-ephant.blogspot.com/2023/07/text-Mining-Normalized.html
- [Implémentons le traitement du langage naturel (NLP) dans Python! ] Une explication approfondie des connaissances que vous devez apprendre! - Le premier plan du développement offshore du Vietnam par Mattock Inc.: Https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
- Outils [Humanities numériques Japon: Wiki de ressources]: https://dhjapan.org/wiki/doku.php?id=tools
- J'ai recherché des mots saisonniers modernes à Python | Aidemy | Aidemy AI Programming Learning Service à partir de 10 secondes [Idemy]: https://aidemy.net/magazine/703/