Neologdn
NEOLGDN هو طبيعية نص يابانية لـ MECAB-NEOLGD.
يعتمد التطبيع على قواعد Neologd: https://github.com/neologd/mecab-ipadic-noologd/wiki/Regexp.ja
المساهمات مرحب بها!
ملاحظة: يتطلب تثبيت هذه الوحدة برنامج التحويل البرمجي C ++ 11.
تثبيت
$ pip install neolgdn
الاستخدام
import neologdn
neologdn . normalize ( "ハンカクカナ" )
# => 'ハンカクカナ'
neologdn . normalize ( "全角記号!?@#" )
# => '全角記号!?@#'
neologdn . normalize ( "全角記号例外「・」" )
# => '全角記号例外「・」'
neologdn . normalize ( "長音短縮ウェーーーーイ" )
# => '長音短縮ウェーイ'
neologdn . normalize ( "チルダ削除ウェ~∼∾〜〰~イ" )
# => 'チルダ削除ウェイ'
neologdn . normalize ( "いろんなハイフン˗֊‐‑‒–⁃⁻₋−" )
# => 'いろんなハイフン-'
neologdn . normalize ( " PRML 副 読 本 " )
# => 'PRML副読本'
neologdn . normalize ( " Natural Language Processing " )
# => 'Natural Language Processing'
neologdn . normalize ( "かわいいいいいいいいい" , repeat = 6 )
# => 'かわいいいいいい'
neologdn . normalize ( "無駄無駄無駄無駄ァ" , repeat = 1 )
# => '無駄ァ'
neologdn . normalize ( "1995〜2001年" , tilde = "normalize" )
# => '1995~2001年'
neologdn . normalize ( "1995~2001年" , tilde = "normalize_zenkaku" )
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "ignore" ) # Don't convert tilde
# => '1995〜2001年'
neologdn . normalize ( "1995〜2001年" , tilde = "remove" )
# => '19952001年'
neologdn . normalize ( "1995〜2001年" ) # Default parameter
# => '19952001年'
معيار
# Sample code from
# https://github.com/neologd/mecab-ipadic-neologd/wiki/Regexp.ja#python-written-by-hideaki-t--overlast
import normalize_neologd
% timeit normalize ( normalize_neologd . normalize_neologd )
# => 9.55 s ± 29.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
import neologdn
% timeit normalize ( neologdn . normalize )
# => 6.66 s ± 35.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
Neologdn حوالي x1.43 أسرع من رمز العينة.
تم وصف التفاصيل على أنها دفتر الملاحظات أدناه: https://github.com/ikegami-yukino/neologdn/blob/master/benchmark/benchmark.ipynb
رخصة
ترخيص برنامج Apache.
مساهمة
المساهمات مرحب بها! انظر: https://github.com/ikegami-yukino/neologdn/blob/master/.github/contributing.md
استشهد بها
كتاب
Yamamoto Kazuhide. التقنيات الأولية لمعالجة النص. العلماء الحديثون. ص 41. 2021.
مدونة
- [مقدمة المكتبة] مكتبة تطبيع النص Neologdn: https://diatonic.codes/blog/neologdn/
- النص الياباني المسبق: Neologdn ، uppercase ، shallcase ، unicode aldayization-Tuttieee's Blog: https://tuttieee.hatenablog.com/entry/ja-nlp-preprocess
- ▲ وظيفة اليوم == neologdn.normalial () == - مدونة TPT: https://ds-blog.tbtech.co.jp/entry/2020/05/11/٪E2٪96٪B2٪E6٪9C٪AC٪E6٪97٪A5٪E3٪81٪E9٪96٪A2٪E6٪95٪F٪3D٪3DNOlogdn_normalalalalasalalalalalesalation٪29٪29٪3D
- تعرف على NLP: https://zenn.dev/panyoriokome/scraps/d67f68ab50c0c1
- استدعاء مكتبة Python لتطبيع النص من Matlab #python - Qiita: https://qiita.com/aoimidori/Items/AB5A4383B5A7BB307BAD
- تقديم إجراء المعالجة المسبقة لمعالجة اللغة الطبيعية مع كود بيثون | إدخال حالات استخدام الذكاء الاصطناعي وحالات تنفيذ الذكاء الاصطناعي | إدخال حالات استخدام الذكاء الاصطناعي وحالات تنفيذ الذكاء الاصطناعي: https://www.matrixflow.net/case-study/75/
- مذكرة المعالجة المسبقة اليابانية باستخدام بيثون | شركة Datum Studio Co. ، Ltd.: https://datumstudio.jp/blog/python٪E3٪81٪AB٪E3٪82٪88٪E3٪82٪8B٪E6٪97٪A5٪ E6 ٪ 9C ٪ AC ٪ E8 ٪ AA ٪ 9E ٪ E5 ٪ 89 ٪ 8d ٪ E5 ٪ 87 ٪ A6 ٪ E7 ٪ 90 ٪ 86 ٪ E5 ٪ 82 ٪ 99 E5 ٪ BF ٪ 98 ٪ E9 ٪ 8C ٪ B2/
- المعالجة والمعالجة والمعالجة (معالجة اللغة الطبيعية: الطبعة اليابانية) | Narudesu: https://note.com/narudesu/n/na35de30a583a
- Neologd.Normalize مع مفتاح الاختصار: https://scrapbox.io/nishio/٪E3٪82٪B7٪E3٪83٪A7٪E3٪83٪BC٪E3٪83٪88٪E3٪82٪Aab٪E3٪83٪8٪E3٪83٪88٪82٪E3٪E3٪83٪E3٪81٪81٪
- بناء بيئة لمعالجة اللغة الطبيعية باستخدام Python #python - Qiita: https://qiita.com/lawyer_alpaca/items/86b0deda984170203467
- Python تطبيع الأمثلة: https://python.hotexamples.com/examples/neologdn/-/normalial
- شركة Shishimaro Co. ، Ltd.
- المعالجة المسبقة الوثائق اليابانية قبل تحليل المورفيم (بيثون) - مذكرات KE: https://ohke.hateblo.jp/entry/2019/02/09/141500
- اجعل الذكاء الاصطناعي يفهم اللغة! ؟ شرح شامل للمعالجة المسبقة للبيانات المهمة لمعالجة اللغة الطبيعية باستخدام Python | معهد أبحاث الذكاء الاصطناعي: https://ai-kenkyujo.com/programming/make-ai-unterstand-the-language/
- قم بإنشاء قاموس مستخدم MECAB يعكس أحدث Wikipedia - Neologd Extension | plakome: https://purakome.net/mecab/addwiki/
- [مقدمة في معالجة اللغة الطبيعية] معالجة الجمل باستخدام كلمات إيقاف وتطبيع | مدونة مهندس Mynavi: https://engineerblog.mynavi.jp/technology/nlp_stopword/
- تدوين موحد [متجر كعكة الأرز معالجة اللغة الطبيعية]: https://www.jnlp.org/nlp/٪E6٪A0٪A1٪E6٪AD٪A3/٪E8٪A8٪E8٪A8٪900٪B00٪B1٪E4٪B8٪80
- بناء نموذج توليد النص T5 باستخدام Pytorch - ممارسة سهلة مع التعلم النقل في المحولات - مخبأ عالم البيانات المتدرب: https://www.dskomei.com/entry/2021/09/28/110016
- المشي مع الفيل: تعدين النص السهل مع Goolge Colab (المعالجة المسبقة اليابانية): https://walking-elephant.blogspot.com/2023/07/text-mining-normalized.html
- [دعونا ننفذ معالجة اللغة الطبيعية (NLP) في بيثون! ] شرح شامل للمعرفة التي تحتاج إلى تعلمها! -مقدمة التنمية الخارجية فيتنام من قبل Mattock Inc.: https://mattock.jp/blog/artificial-intelligence/nlp/lets-implement-nlp-in-python/
- الأدوات [الإنسانية الرقمية اليابان: موارد ويكي]: https://dhjapan.org/wiki/doku.php؟id=tools
- نظرت إلى الكلمات الموسمية الحديثة في بيثون | Aidemy | Aidemy AI Programming Service ابتداءً من 10 ثوانٍ [idemy]: https://aidemy.net/magazine/703/