neologdn скачать - скачать исходный код neologdn

neologdn

Другой исходный код

v0.5.2

Скачать

Neologdn

Neologdn-это японский текстовый нормализатор для Mecab-neologd.

Нормализация основана на правилах Neologd: https://github.com/neologd/mecab-ipadic-neologd/wiki/regexp.ja

Взносы приветствуются!

Примечание. Установка этого модуля требует компилятора C ++ 11.

Установка

 $ pip установить neologdn

Использование

 import neologdn
neologdn . normalize ( "ﾊﾝｶｸｶﾅ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号！？＠＃" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰～イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( "　　　ＰＲＭＬ　　副　読　本　　　" )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" )  # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" )  # Default parameter
# => '19952001年'

Эталон

 # Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd

% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

Neologdn примерно на x1,43 быстрее, чем пример кода.

Подробная информация описана как записная книжка ниже: https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb

Лицензия

Лицензия программного обеспечения Apache.

Вклад

Взносы приветствуются! См.: Https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md

Цитируется

Книга

Ямамото Казухид. Элементные методы обработки текста. Современные ученые. С.41. 2021.

Блог

[Введение библиотеки] Библиотека нормы текста Neologdn: https://diothic.codes/blog/neologdn/
Предварительная обработка японского текста: neologdn, верхний регистр, нижний регистр, нормализация Unicode-блог Tuttieee: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
▲ Сегодняшняя функция == neologdn.normalize () == - блог TPT: https://ds-blog.tbtech.co.jp/entry/2020/05/11/%E2%96%B2%E6%9C%E6%97%A5%E3%81%E .%E6%9C%E6%97%A5%E3%81%E 96%9C%E6%97%A5%E3%81%E9%96%A2%E6%95%B0%3D 3DneolgDn_normazel%28%29%3d3d3d3d3d3d3d3d3d3d3d3
Узнайте о NLP: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
Вызов библиотеки Python для нормализации текста из Matlab #python - Qiita: https://qiita.com/aoimidori/items/ab5a4383b5a7bb307bad
Введение процедуры предварительной обработки для обработки естественного языка с помощью кода Python | Внедрение случаев использования ИИ и реализации ИИ | Внедрение случаев использования ИИ и реализации ИИ: https://www.matrixflow.net/case-study/75/
Японская предварительная обработка с использованием Python | Datum Studio Co., Ltd.: https://datumstudio.jp/blog/python%E3%81%AB%E3%82%88%E3%82%8B%E6%97%A5% E6%9C%AC%E8%AA%9E%E5%89%8D%E5%87%A6%E7%90%86%E5%82%99%E5%BF%98%E9%8C%B2/
Предварительная обработка, предварительная обработка и предварительная обработка (обработка естественного языка: японское издание) | Narudesu: https://note.com/narudesu/n/na35de30a583a
Neologd. Нормализуйте с помощью ярлыка: https://scrapbox.io/nishio/%E3%82%B7%E3%83%A7%E3%83%BC%E3%83%88%E3%82%Ab%E3%83%83%E3%83%88%E3%82%E3%83%83%e3%83%88%E3%82%ED 3,83%BC%E3% 88%EALISMALIGE
Создание среды для обработки естественного языка с использованием Python #python - Qiita: https://qiita.com/lawyer_alpaca/items/86b0da984170203467
Python Нормализуйте Примеры: https://python.hotexamples.com/examples/neologdn/-/normalize/python-normale-funct-examples.html
Shishimaro Co., Ltd. (CH-4) Анализ наборов данных Chabsa с использованием потенциального распределения Dirichlet (LDA): https://shishimaro.co.jp/blog/ai/538
Предварительная обработка японских документов перед анализом Morpheme (Python) - CE Diary: https://ohke.hateblo.jp/entry/2019/02/09/141500
Сделать искусственный интеллект понимать язык! ? Тщательное объяснение предварительной обработки данных, важных для обработки естественного языка с использованием Python | Исследовательский институт AI: https://ai-kenkyujo.com/programming/make-ai-ronstand-the-language/
Создать пользовательский словарь MECAB, который отражает новейшую Википедию - Neologd Extension | Plakome: https://purakome.net/mecab/addwiki/
[Введение в обработку естественного языка] Обработка предложений с использованием остановки слов и нормализации | Блог инженера MyNavi: https://engineerblog.mynavi.jp/technology/nlp_stopword/
Объединенная нотация [Магазин рисовых тортов на естественном языке]: https://www.jnlp.org/nlp/%E6%A0%A1%E6%AD%A3/%E8%A1%A8%E8%A8%98%E7%B5%E4%B8%80
Создание модели генерации текста T5 с использованием Pytorch - Легкая практика с обучением трансфера в трансформаторах - Учебник ученого ученика: https://www.dskomei.com/entry/2021/09/28/110016
Прогулка с слоном: легкая добыча текста с Goolge Colab (японская предварительная обработка): https://walking-elephant.blogspot.com/2023/07/07/text-mining-normalized.html
[Давайте внедрим обработку естественного языка (NLP) в Python! ] Тщательное объяснение знаний, которые вам нужно выучить! -Фортрант вьетнамской оффшорной разработки от Mattock Inc.: Https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
Инструменты [Цифровые гуманитарные науки Япония: ресурсы Wiki]: https://dhjapan.org/wiki/doku.php?id=tools
Я посмотрел современные сезонные слова в Python | Aidemy | Служба обучения AIDEM AI, начиная с 10 секунд [Idemy]: https://aidemy.net/magazine/703/