Neologdn
Neologdn은 Mecab-Neologd의 일본어 텍스트 정상화입니다.
정규화는 Neologd의 규칙을 기반으로합니다 : https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja
기부금을 환영합니다!
참고 :이 모듈을 설치하려면 C ++ 11 컴파일러가 필요합니다.
설치
$ pip install neologdn
용법
import neologdn
neologdn . normalize ( "ハンカクカナ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号!?@#" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰~イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( " PRML 副 読 本 " )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" ) # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" ) # Default parameter
# => '19952001年'
기준
# Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd
% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Neologdn은 샘플 코드보다 약 x1.43 더 빠릅니다.
세부 사항은 아래 노트북으로 설명됩니다 : https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb
특허
아파치 소프트웨어 라이센스.
기부금
기부금을 환영합니다! https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md를 참조하십시오
인용
책
야마모토 카즈 히드. 텍스트 처리의 원소 기술. 현대 과학자. p.41. 2021.
블로그
- [라이브러리 소개] 텍스트 정규화 라이브러리 Neologdn : https://diatonic.codes/blog/neologdn/
- 일본어 텍스트 전처리 : Neologdn, 대문자, 소문자, 유니 코드 정규화 -Tuttieee 's Blog : https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
- ▲ 오늘의 기능 == neologdn.normanize () == - tpt 블로그 : https://ds-blog.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%AC%E6%97%A5%E3%81%E996%A2%95%B0%3D%3dneologdn_normizate%29%3D%3D
- NLP에 대해 알아보십시오 : https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1에 대해 알아보십시오
- MATLAB #PYTHON -QIITA : https://qiita.com/aoimidori/items/ab5a4383b5a7bb307bad에서 텍스트 정규화를 위해 Python Library 호출
- 파이썬 코드로 자연 언어 처리를위한 전처리 절차 소개 | AI 사용 및 AI 구현 사례 소개 | AI 사용 및 AI 구현 사례 소개 : https://www.matrixflow.net/case-study/75/
- 파이썬을 사용한 일본 전처리 메모 | Datum Studio Co., Ltd. : https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5% E6%9c%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%99%E5%BF%98%E9%8C%B2/
- 전처리, 전처리 및 전처리 (자연 언어 처리 : 일본판) | Narudesu : https://note.com/narudesu/n/na35de30a583a
- Neologd. 바로 가기 키로 정상화 : https://scrapbox.io/nishio/%E3%82%B7%B7%E3%83%A7%E3%83%BC%E3%83%88%E3%82%AB%E3%83%83%83%83%88%82%82%AD%E3%83%BC%E3%E3%819NeAltialite
- Python #python -qiita : https://qiita.com/lawyer_alpaca/items/86b0deda984170203467을 사용하여 자연 언어 처리 환경 구축
- Python은 예제를 정상화합니다
- Shishimaro Co., Ltd. (CH-4) 잠재적 인 Dirichlet 할당 (LDA)을 사용한 ChABSA 데이터 세트 분석 : https://shishimaro.jp/blog/ai/538
- 형태소 분석 전 일본 문서 전처리 (Python) -KE 일기 : https://ohke.hateblo.jp/entry/2019/02/09/141500
- 인공 지능을 언어로 이해하십시오! ? 파이썬을 사용한 자연 언어 처리에 중요한 데이터의 전처리에 대한 철저한 설명 | AI Research Institute : https://ai-kenkyujo.com/programming/make-ai-understand-the-language/
- 최신 Wikipedia -Neologd Extension | Plakome : https://purakome.net/mecab/addwiki/
- [자연어 처리 소개] 중지 단어 및 정규화를 사용한 문장 처리 | Mynavi 엔지니어 블로그 : https://engineerblog.mynavi.jp/technology/nlp_stopword/
- 통합 표기법 [자연 언어 가공 Rice Cake Shop] : https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1%A8%E8%A8%98%B5%B5%B1%E4%B8%80
- Pytorch를 사용하여 T5 텍스트 생성 모델 구축 - 변압기에서의 전송 학습이 쉬운 실습 - 견습생 데이터 과학자의 은신처 : https://www.dskomei.com/entry/2021/09/28/110016
- 코끼리와 함께 걷기 : GOOLGE COLAB (일본 사전 프로세싱)와 함께 쉬운 텍스트 채굴 : https://walking-elephant.blogspot.com/2023/07/text-mining-normalized.html
- [Python에서 NLP (Natural Language Processing)를 구현합시다! ] 배우는 데 필요한 지식에 대한 철저한 설명! -Mattock Inc.
- 도구 [Digital Humanities Japan : Resource Wiki] : https://dhjapan.org/wiki/doku.php?id=tools
- 나는 파이썬에서 현대 계절 단어를 찾았다 | Aidemy | Aidemy AI 프로그래밍 학습 서비스 10 초 안에 시작합니다 [idemy] : https://aidemy.net/magazine/703/