محلل مورفولوجي جديد ينظر في المعقولية الدلالية لتسلسلات الكلمات باستخدام نموذج لغة الشبكة العصبية المتكررة (RNNLM). يتمتع الإصدار 2 بدقة أفضل وسرعة التحليل المحسّنة (> 250x) من Juman ++ الأصلي.
sudo apt install libprotobuf-dev protobuf-compilerاقرأ هذا الوثيقة لمشتقات CentOS ومشتقات Rhel أو بدائل غير محددة.
قم بتنزيل الحزمة من الإصدارات
هام : يجب أن يكون التنزيل حوالي 300 ميغابايت. إذا لم يكن الأمر كذلك ، فربما قمت بتنزيل لقطة مصدر لا تحتوي على نموذج.
$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake ..
-DCMAKE_BUILD_TYPE=Release # you want to do this for performance
-DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism > هام : فقط توزيع الحزمة يحتوي على نموذج مسبق ويمكن استخدامه للتحليل. إصدار GIT الحالي غير متوافق مع نماذج 2.0-RC1 و 2.0-RC2.
$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS
usage: jumanpp [options]
-s, --specifics lattice format output (unsigned int [=5])
--beam <int> set local beam width used in analysis (unsigned int [=5])
-v, --version print version
-h, --help print this message
--model <file> specify a model location
استخدم --help لمعرفة المزيد من الخيارات.
يمكن لـ Juman ++ التعامل مع النص المشفر UTF-8 فقط كمدخل. سيتم تفسير الخطوط التي تبدأ بـ # على أنها تعليقات.
تتوفر مجموعة من البرامج النصية لتدريب نموذج Jumandic في هذا المستودع. من الممكن تعديل قاموس النظام لإضافة إدخالات أخرى إلى النموذج المدربين.
الانتباه : تحتاج إلى الوصول إلى Mainichi Shinbun لعام 1995 لتكون قادرًا على استخدام Kyoto Univeristy Corpus للتدريب.
يمكنك اللعب حول عرض الويب الخاص بنا والذي يعرض مجموعة فرعية من الشبكة بأكملها. لا يزال العرض التوضيحي يستخدم V1 ، ولكن سيتم تحديثه إلى V2 قريبًا.
يمكنك أن ترى جملًا تنتج فيها تكوينات شعاع مختلفة تحليلات مختلفة. A src/jumandic/jpp_jumandic_pathdiff ثنائي (المصدر) (نسبة إلى جذر التجميع) يفعل ذلك. الشيء الوحيد الذي يميز jumandic هنا هو استخدام استنتاج النموذج الخطي الذي تم إنشاؤه بواسطة الكود.
استخدم الثنائي مثل jpp_jumandic_pathdiff <model> <input> > <output> .
ستكون المخرجات في تنسيق التعليقات التوضيحية الجزئية مع نتائج الحزمة الكاملة هي العلامات الفعلية ونتائج الحزمة المقطوعة التي يتم كتابتها كتعليقات.
مثال:
# scores: -0.602687 -1.20004
# 子がい pos:名詞 subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
子 pos:名詞 subpos:普通名詞 <------- full beam result
が pos:助詞 subpos:格助詞
い baseform:いる conjtype:母音動詞 pos:動詞 conjform:基本連用形
ます
لدينا أيضا أداة شرح جزئية. يرجى الاطلاع على https://github.com/eiennohito/nlp-tools-demo للحصول على التفاصيل.
للحصول على أفضل أداء ، تحتاج إلى البناء باستخدام مجموعات التعليمات الموسعة. إذا كنت تخطط لاستخدام Juman ++ محليًا فقط ، فحدد -DCMAKE_CXX_FLAGS="-march=native" .
يعمل بشكل أفضل على Intel Haswell والمعالجات الأحدث (بسبب تمديدات تعليمات FMA و BMI).
Juman ++ هي أداة عامة. لا يعتمد على اللغة الجماهيرية أو اليابانية (وإن كانت هناك بعض الوظائف اليابانية الخاصة). راجع هذا المشروع التعليمي الذي يوضح كيفية تنفيذ شيء مشابه لإدخال نص T9 للحالة عندما لا توجد حدود كلمة في نص الإدخال.
حول النموذج نفسه: التحليل المورفولوجي للغات غير المفرطة باستخدام نموذج لغة الشبكة العصبية المتكررة . هاجيمي موريتا ، ديسوكي كاواهارا ، ساداو كوروهاشي. رابط EMNLP 2015 ، Bibtex.
التحسينات V2: Juman ++ V2: محلل مورفولوجي عملي وحديث . أرسيني تولماشوف وكوروهاشي ساداو. وقائع الاجتماع السنوي الرابع والعشرون لجمعية معالجة اللغة الطبيعية. مارس 2018 ، أوك أوكاما ، اليابان. (PDF ، الشرائح)
ورشة التحليل المورفولوجي في الشرائح ANLP2018: 形態素解析システム Juman ++. 河原 大輔 ، Arseny Tolmachev. (باللغة اليابانية) الشرائح.
Juman ++: مجموعة أدوات التحليل المورفولوجي لـ Scriptio Continua. Arseny Tolmachev و Daisuke Kawahara و Sadao Kurohashi. EMNLP 2018 ، بروكسل. PDF ، ملصق ، bibtex.
تصميم وهيكل مجموعة أدوات محلل المورفولوجية Juman ++. Arseny Tolmachev ، Daisuke Kawahara ، Sadao Kurohashi. مجلة معالجة اللغة الطبيعية ، (ورقة ، bibtex).
إذا كنت تستخدم Juman ++ V1 في الإعداد الأكاديمي ، فيرجى الاستشهاد بالعمل الأول (EMNLP2015). إذا كنت تستخدم Juman ++ V2 ، فيرجى الاستشهاد بالورق الأول والرابع (EMNLP2018).
قائمة جميع المكتبات المستخدمة من قبل Juman ++ موجودة هنا.
هذا هو فرع لإعادة كتابة Juman ++. النسخة الأصلية تعيش في فرع Legacy.