Descarga neologdn - Descargar el código fuente neologdn

neologdn

Otro código fuente

v0.5.2

Descargar

neologdn

Neologdn es un normalizador de texto japonés para Mecab-Neologd.

La normalización se basa en las reglas de Neologd: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja

¡Las contribuciones son bienvenidas!

Nota: Instalar este módulo requiere el compilador C ++ 11.

Instalación

 $ Pip Install Neologdn

Uso

 import neologdn
neologdn . normalize ( "ﾊﾝｶｸｶﾅ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号！？＠＃" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰～イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( "　　　ＰＲＭＬ　　副　読　本　　　" )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" )  # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" )  # Default parameter
# => '19952001年'

Punto de referencia

 # Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd

% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Neologdn es aproximadamente X1.43 más rápido que el código de muestra.

Los detalles se describen como el siguiente cuaderno: https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb

Licencia

Licencia de software Apache.

Contribución

¡Las contribuciones son bienvenidas! Ver: https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md

Citado por

Libro

Yamamoto Kazuhide. Técnicas elementales de procesamiento de texto. Científicos modernos. P.41. 2021.

Blog

[Introducción de la biblioteca] Biblioteca de normalización de texto Neologdn: https://diatonic.codes/blog/neologdn/
Preprocesamiento de texto japonés: Neologdn, mayúsculas, minúsculas, normalización de unicode-Blog de tuttieee: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocessess
▲ Función de hoy == neologdn.normalize () == - Blog TPT: https://ds-log.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%AC%E6%97%A5%E3%81%E%E9%96%A2%E6%95%B0%3D%3Dneologdn_Normaly%28%29%3D%3D
Aprenda sobre NLP: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
Llamar a la biblioteca de Python para la normalización de texto de Matlab #python - Qiita: https://qiita.com/aoimidori/items/ab5a4383b5a7bb3307bad
Introducción del procedimiento de preprocesamiento para el procesamiento del lenguaje natural con el código Python | Introducción de casos de utilización de IA e implementación de IA | Presentación de casos de utilización de IA e implementación de IA: https://www.matrixflow.net/case-study/75/
Memo de preprocesamiento japonés usando Python | Datum Studio Co., Ltd.: https://datumstudio.jp/blog/python%E3%81%Abl%E3%82%88%E3%82%8B%E6%97%A5% E6%9C%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%99%E5%BF%98%E9%8C%B2/
Pretratamiento, pretratamiento y pretratamiento (procesamiento del lenguaje natural: edición japonesa) | Narudesu: https://note.com/narudesu/n/na35de30a583a
Neologd.normalize con la tecla de acceso directo: https://scrapbox.io/nisnio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%8%E3%82%Abl%E3%83%83%E3%83%E3%82%AD%E3%8 %%BC%E3%EL
Construyendo un entorno para el procesamiento del lenguaje natural usando Python #python - Qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
Python Normalize Ejemplos: https://python.hotexamples.com/examples/neologdn/-/normalisaly/python-normalise-function-examples.html
Shishimaro Co., Ltd. (CH-4) Análisis de conjuntos de datos Chabsa utilizando la asignación potencial de Dirichlet (LDA): https://shishimaro.co.jp/blog/ai/538
Preprocesamiento de documentos japoneses antes del análisis de morfema (Python) - Ke Diary: https://ohke.hateblo.jp/entry/2019/02/09/141500
¡Haga que la inteligencia artificial comprenda el lenguaje! ? Una explicación exhaustiva del preprocesamiento de datos importantes para el procesamiento del lenguaje natural utilizando Python | Instituto de Investigación de AI: https://ai-kenkyuJo.com/programming/make-ai-oderstand-the-language/
Cree un diccionario de usuario de MECAB que refleje la última Wikipedia - Neologd Extension | Plakome: https://purakome.net/mecab/addwiki/
[Introducción al procesamiento del lenguaje natural] Frases de procesamiento utilizando palabras de parada y normalización | Blog de Ingeniero MyNavi: https://engineerblog.mynavi.jp/technology/nlp_stopword/
Notación unificada [Cake de torta de arroz de procesamiento de lenguaje natural]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1%A8%E8%A8%98%E7%B5%B1%E4%B8%80
Construir el modelo de generación de texto T5 usando Pytorch - Práctica fácil con el aprendizaje de transferencia en Transformers - Aprendiz Data Scientist's Hideaway: https://www.dskomei.com/entry/2021/09/28/110016
Caminando con el elefante: minería de texto fácil con Goolge Colab (preprocesamiento japonés): https://walking-elephant.blogspot.com/2023/07/text-mining-normalized.html
[Implementemos el procesamiento del lenguaje natural (PNL) en Python! ] ¡Una explicación exhaustiva del conocimiento que necesita aprender! -The Forefront of Vietnam Offshore Development por Mattock Inc.: Https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
Herramientas [Humanidades digitales Japón: Wiki de recursos]: https://dhjapan.org/wiki/doku.php?id=tools
Busqué palabras de temporada modernas en Python | Aidemia | Servicio de aprendizaje de programación de Aidemy AI que comienza en 10 segundos [idemy]: https://aidemy.net/magazine/703/

Expandir

Información adicional

Versión v0.5.2
Tipo Otro código fuente
Fecha de actualización 2025-04-17
tamaño 99.84KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo