neologdn
Neologdn es un normalizador de texto japonés para Mecab-Neologd.
La normalización se basa en las reglas de Neologd: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja
¡Las contribuciones son bienvenidas!
Nota: Instalar este módulo requiere el compilador C ++ 11.
Instalación
$ Pip Install Neologdn
Uso
import neologdn
neologdn . normalize ( "ハンカクカナ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号!?@#" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰~イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( " PRML 副 読 本 " )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" ) # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" ) # Default parameter
# => '19952001年'
Punto de referencia
# Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd
% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Neologdn es aproximadamente X1.43 más rápido que el código de muestra.
Los detalles se describen como el siguiente cuaderno: https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb
Licencia
Licencia de software Apache.
Contribución
¡Las contribuciones son bienvenidas! Ver: https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md
Citado por
Libro
Yamamoto Kazuhide. Técnicas elementales de procesamiento de texto. Científicos modernos. P.41. 2021.
Blog
- [Introducción de la biblioteca] Biblioteca de normalización de texto Neologdn: https://diatonic.codes/blog/neologdn/
- Preprocesamiento de texto japonés: Neologdn, mayúsculas, minúsculas, normalización de unicode-Blog de tuttieee: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocessess
- ▲ Función de hoy == neologdn.normalize () == - Blog TPT: https://ds-log.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%AC%E6%97%A5%E3%81%E%E9%96%A2%E6%95%B0%3D%3Dneologdn_Normaly%28%29%3D%3D
- Aprenda sobre NLP: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
- Llamar a la biblioteca de Python para la normalización de texto de Matlab #python - Qiita: https://qiita.com/aoimidori/items/ab5a4383b5a7bb3307bad
- Introducción del procedimiento de preprocesamiento para el procesamiento del lenguaje natural con el código Python | Introducción de casos de utilización de IA e implementación de IA | Presentación de casos de utilización de IA e implementación de IA: https://www.matrixflow.net/case-study/75/
- Memo de preprocesamiento japonés usando Python | Datum Studio Co., Ltd.: https://datumstudio.jp/blog/python%E3%81%Abl%E3%82%88%E3%82%8B%E6%97%A5% E6%9C%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%99%E5%BF%98%E9%8C%B2/
- Pretratamiento, pretratamiento y pretratamiento (procesamiento del lenguaje natural: edición japonesa) | Narudesu: https://note.com/narudesu/n/na35de30a583a
- Neologd.normalize con la tecla de acceso directo: https://scrapbox.io/nisnio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%8%E3%82%Abl%E3%83%83%E3%83%E3%82%AD%E3%8 %%BC%E3%EL
- Construyendo un entorno para el procesamiento del lenguaje natural usando Python #python - Qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
- Python Normalize Ejemplos: https://python.hotexamples.com/examples/neologdn/-/normalisaly/python-normalise-function-examples.html
- Shishimaro Co., Ltd. (CH-4) Análisis de conjuntos de datos Chabsa utilizando la asignación potencial de Dirichlet (LDA): https://shishimaro.co.jp/blog/ai/538
- Preprocesamiento de documentos japoneses antes del análisis de morfema (Python) - Ke Diary: https://ohke.hateblo.jp/entry/2019/02/09/141500
- ¡Haga que la inteligencia artificial comprenda el lenguaje! ? Una explicación exhaustiva del preprocesamiento de datos importantes para el procesamiento del lenguaje natural utilizando Python | Instituto de Investigación de AI: https://ai-kenkyuJo.com/programming/make-ai-oderstand-the-language/
- Cree un diccionario de usuario de MECAB que refleje la última Wikipedia - Neologd Extension | Plakome: https://purakome.net/mecab/addwiki/
- [Introducción al procesamiento del lenguaje natural] Frases de procesamiento utilizando palabras de parada y normalización | Blog de Ingeniero MyNavi: https://engineerblog.mynavi.jp/technology/nlp_stopword/
- Notación unificada [Cake de torta de arroz de procesamiento de lenguaje natural]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1%A8%E8%A8%98%E7%B5%B1%E4%B8%80
- Construir el modelo de generación de texto T5 usando Pytorch - Práctica fácil con el aprendizaje de transferencia en Transformers - Aprendiz Data Scientist's Hideaway: https://www.dskomei.com/entry/2021/09/28/110016
- Caminando con el elefante: minería de texto fácil con Goolge Colab (preprocesamiento japonés): https://walking-elephant.blogspot.com/2023/07/text-mining-normalized.html
- [Implementemos el procesamiento del lenguaje natural (PNL) en Python! ] ¡Una explicación exhaustiva del conocimiento que necesita aprender! -The Forefront of Vietnam Offshore Development por Mattock Inc.: Https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
- Herramientas [Humanidades digitales Japón: Wiki de recursos]: https://dhjapan.org/wiki/doku.php?id=tools
- Busqué palabras de temporada modernas en Python | Aidemia | Servicio de aprendizaje de programación de Aidemy AI que comienza en 10 segundos [idemy]: https://aidemy.net/magazine/703/