Neologdn
Neologdn é um normalizador de texto japonês para Mecab-neologd.
A normalização é baseada nas regras do neologd: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja
As contribuições são bem -vindas!
Nota: A instalação deste módulo requer compilador C ++ 11.
Instalação
$ pip install neologdn
Uso
import neologdn
neologdn . normalize ( "ハンカクカナ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号!?@#" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰~イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( " PRML 副 読 本 " )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" ) # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" ) # Default parameter
# => '19952001年'
Benchmark
# Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd
% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
O Neologdn é cerca de x1,43 mais rápido que o código de amostra.
Os detalhes são descritos como o Notebook abaixo: https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb
Licença
Licença de software Apache.
Contribuição
As contribuições são bem -vindas! Veja: https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md
Citado por
Livro
Yamamoto Kazuhide. Técnicas elementares do processamento de texto. Cientistas modernos. P.41. 2021.
Blog
- [Biblioteca Introdução] Biblioteca de normalização de texto Neologdn: https://diatonic.codes/blog/neologdn/
- Pré-processamento de texto japonês: neologdn, mancha, minúscula, normalização unicode-blog tuttieee: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
- ▲ função de hoje == neologdn.normalize () == - blog tpt: https://ds-blog.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%AC%E6%97%A5%E3%81%Eologdn_eprocomemperes
- Aprenda sobre o NLP: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
- Chamando a Biblioteca Python para normalização de texto de Matlab #python - qiita: https://qiita.com/aoimidori/items/ab5a4383b5a7bb307bad
- Apresentando o procedimento de pré -processamento para processamento de linguagem natural com código Python | Introdução de Casos de Utilização da IA e IA Implementação | Apresentando casos de utilização de IA e implementação de IA: https://www.matrixflow.net/case-study/75/
- Memorando de pré -processamento japonês usando Python | Datum Studio Co., Ltd.: https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5%8B E6%9c%CA%E8%AA%9E%E5%89%8D E5%87%A6%E7%90%86%E5%82%99%E5%bf%98%E9%8c%b2/
- Pré -tratamento, pré -tratamento e pré -tratamento (Processamento da linguagem natural: edição japonesa) | Narudesu: https://note.com/narudesu/n/na35de30a583a
- Neologd.normalize com a chave de atalho: https://scrapbox.io/nishio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%88%E3%82%e3%E3%83%83%E3%83%82%82%E3%E383%83%E3%83%82%E38383%83%E3%83%82%E38383%83%83%83%82%82%E38383%83%E3%83%82%E38383%83%83%83%83%82%E38383%83%83%83%82%82%E3gem38383%83%83%83%82%111113gem38383%83%83%83%82%82%E38383%83%83%83%182%83%E3gem38383%83rig
- Construindo um ambiente para processamento de linguagem natural usando Python #python - qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
- Python normalize exemplos: https://python.hotexamples.com/examples/neologdn/-/normalize/python-normalize-function-examples.html
- Shishimaro Co., Ltd. (CH-4) Análise de conjuntos de dados Chabsa usando potencial alocação de Dirichlet (LDA): https://shishimaro.co.jp/blog/ai/538
- Pré -processamento de documentos japoneses antes da análise de morfemas (Python) - Ke Diário: https://ohke.hateblo.jp/entry/2019/02/09/141500
- Faça a inteligência artificial entender a linguagem! ? Uma explicação completa do pré -processamento de dados importantes para o processamento de linguagem natural usando Python | Instituto de Pesquisa da AI: https://ai-kenkyujo.com/programming/make-ai-undestand-the-language/
- Crie um dicionário de usuário do MECAB que reflita a última Wikipedia - Neologd Extension | Plakome: https://purakome.net/mecab/addwiki/
- [Introdução ao processamento de linguagem natural] Processando frases usando palavras de parada e normalização | Blog de engenheiros MyNavi: https://engineerblog.mynavi.jp/technology/nlp_stopword/
- NOTAÇÃO UNIFICADA [Loja de bolos de arroz de processamento de linguagem natural]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1 %a8%E8%A8%98%E7%B5%B1%E4%A888
- Modelo de geração de texto T5 Building Usando Pytorch - Prática fácil com o aprendizado de transferências em Transformers - Aprendizes Hideaway do cientista de dados: https://www.dskomei.com/entry/2021/09/28/110016
- Caminhando com o elefante: Mineração de texto fácil com Goolge Colab (pré-processamento japonês): https://walking-lephant.blogspot.com/2023/07/text-mining-normilized.html
- [Vamos implementar o processamento de linguagem natural (PNL) no Python! ] Uma explicação completa do conhecimento que você precisa aprender! -A vanguarda do desenvolvimento offshore do Vietnã por Mattock Inc.: Https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
- Ferramentas [Humanidades Digital Japão: Wiki de Recursos]: https://dhjapan.org/wiki/doku.php?id=tools
- Eu olhei para as palavras sazonais modernas em Python | AIDEMY | Serviço de aprendizado de programação da AIDEMY AI a partir de 10 segundos [idemia]: https://aidemy.net/magazine/703/