Neologdn
Neologdn是Mecab-Neologd的日本文本标准函数。
归一化基于Neologd的规则:https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja
欢迎捐款!
注意:安装此模块需要C ++ 11编译器。
安装
$ pip安装neologdn
用法
import neologdn
neologdn . normalize ( "ハンカクカナ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号!?@#" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰~イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( " PRML 副 読 本 " )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" ) # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" ) # Default parameter
# => '19952001年'
基准
# Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd
% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Neologdn的X1.43比示例代码快。
详细信息被描述为以下笔记本:https://github.com/ikegami-yukino/neologdn/blob/master/master/benchmark/benchmark.ipynb
执照
Apache软件许可证。
贡献
欢迎捐款!请参阅:https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md
引用
书
Yamamoto Kazuhide。文本处理的元素技术。现代科学家。第41页。 2021。
博客
- [库简介]文本归一化库Neologdn:https://diatonic.codes/blog/neologdn/
- 预处理日语文本:Neologdn,大写,小写,Unicode归一化-Tuttieee博客:https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
- ▲今天的函数== neologdn.normalize()== -TPT博客: https://ds-blog.tbtech.co.jp/entry/2020/05/21/%E2%96%B2%B2%E6%9C%ACMEACECE6%97%E9M5%E3%E3%E3%E96%96%96%A2%A2%E6%E6%95;
- 了解NLP:https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
- 致电python库以获取文本归一化#python -qiita:https://qiita.com/aoimidori/items/ab5A4383B5A7BBBBBB307BAD
- 使用Python代码引入自然语言处理的预处理程序|引入AI利用率和AI实施案例|引入AI利用率和AI实施案例:https://www.matrixflow.net/case-study/75/
- 日本使用Python的预处理备忘录| Datum Studio Co.,Ltd。: https://datumstudio.jp/blog/python%E3%81%Ab%E3%82%88%E3%82%8B%E6%97%A5%%A5%%A5%; E6%9C%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%82%99%E5%BF%BF%98%E9%E9%8C%B2/
- 预处理,预处理和预处理(自然语言处理:日语版)| Narudesu:https://note.com/narudesu/n/na35de30a583a
- Neologd.Sustruct Key Neologd.Sormalize: https://scrapbox.io/nishio/%E3%82%B7%E3%83%83%A7%E3%83%BC%E3%83%88%88%882%82%AB%E3%83%83)
- 使用Python #Python -Qiita:https://qiita.com/lawyer_alpaca/items/86B0DEDA984170203467建立自然语言处理环境。
- Python归一化示例:https://python.hotexamples.com/examples/neologdn/-/normalize/python-normalize-function-examples.html
- Shishimaro Co.,Ltd。(CH-4)使用潜在的Dirichlet分配(LDA)对CHABSA数据集进行分析:https://shishimaro.co.jp/blog/blog/ai/538/538/538
- 在语音分析前的日语预处理(Python)-KE Diary:https://ohke.hateblo.jp/entry/2019/02/02/09/141500
- 使人工智能理解语言! ?对使用Python进行自然语言处理重要的数据的预处理的详尽解释| AI研究所:https://ai-kenkyujo.com/programming/make-ai-undertand-the-language/
- 创建一个反映最新Wikipedia -Neologd扩展的MECAB用户字典| plakome:https://purakome.net/mecab/addwiki/
- [自然语言处理简介]使用停止单词和归一化处理句子| Mynavi工程师博客:https://engineerblog.mynavi.jp/technology/nlp_stopword/
- 统一符号[自然语言处理稻蛋糕商店]:https://www.jnlp.org/nlp/%E6%A0%A1;
- 使用Pytorch建立T5文本生成模型 - 在变压器中进行转移学习的轻松练习 - 学徒数据科学家的遗体:https://www.dskomei.com/entry/Entry/2021/09/28/110016
- 与大象同行:与Goolge colab(日本预处理)的简单挖掘:https://walking-elephant.blogspot.com/2023/07/text-mining-normalized.html
- [让我们在Python中实现自然语言处理(NLP)! ]对您需要学习的知识的详尽解释! - Mattock Inc。的越南离岸开发的最前沿
- 工具[数字人文科学日本:资源Wiki]:https://dhjapan.org/wiki/doku.php?id=tools
- 我在python中查找了现代季节性词| AIDEMY | AIDEMY AI编程学习服务从10秒开始[IDEMY]:https://aidemy.net/magazine/703/