Новый морфологический анализатор, который рассматривает семантическую правдоподобие последовательностей слов, используя рецидивирующую модель языка нейронной сети (RNNLM). Версия 2 имеет лучшую точность и значительную (> 250x) улучшенную скорость анализа, чем оригинальный Juman ++.
sudo apt install libprotobuf-dev protobuf-compilerПрочитайте этот документ для производных CentOS и RHEL или альтернативы, не являющихся CMAKE.
Загрузите пакет из релизов
Важно : загрузка должна быть около 300 МБ. Если вы, вероятно, не загрузили источник, который не содержит модель.
$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake ..
-DCMAKE_BUILD_TYPE=Release # you want to do this for performance
-DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism > Важно : только распределение пакетов содержит предварительную модель и может использоваться для анализа. Текущая версия GIT не совместима с моделями 2,0-RC1 и 2,0-RC2.
$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS
usage: jumanpp [options]
-s, --specifics lattice format output (unsigned int [=5])
--beam <int> set local beam width used in analysis (unsigned int [=5])
-v, --version print version
-h, --help print this message
--model <file> specify a model location
Используйте --help , чтобы увидеть больше вариантов.
Juman ++ может обрабатывать только кодированный текст UTF-8 в качестве ввода. Линии, начиная с # будут интерпретироваться как комментарии.
Набор сценариев для обучения модели Jumandic доступен в этом хранилище. Можно изменить системный словарь, чтобы добавить другие записи в обученную модель.
Внимание : вам нужен доступ к Mainichi Shinbun в 1995 году, чтобы иметь возможность использовать Kyoto Univeristy Corpus для обучения.
Вы можете играть вокруг нашей веб -демонстрации, которая отображает подмножество всей решетки. Демонстрация все еще использует V1, но скоро будет обновлена V2.
Вы можете увидеть предложения, в которых две различные конфигурации луча создают различные анализы. src/jumandic/jpp_jumandic_pathdiff BINAR (Source) (по сравнению с корнем компиляции) делает это. Единственная специфичная для Jumandic здесь-это использование вывода линейной модели, сгенерированной кодом.
Используйте двоичный файл как jpp_jumandic_pathdiff <model> <input> > <output> .
Выходы будут в формате частичной аннотации, и результаты полного луча являются фактическими тегами и обрезанными результатами луча, написанные в виде комментариев.
Пример:
# scores: -0.602687 -1.20004
# 子がい pos:名詞 subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
子 pos:名詞 subpos:普通名詞 <------- full beam result
が pos:助詞 subpos:格助詞
い baseform:いる conjtype:母音動詞 pos:動詞 conjform:基本連用形
ます
У нас также есть частичный инструмент аннотации. Пожалуйста, смотрите https://github.com/eiennohito/nlp-tools-demo для получения подробной информации.
Чтобы получить наилучшую производительность, вам нужно построить с расширенными наборами инструкций. Если вы планируете использовать Juman ++ только локально, укажите -DCMAKE_CXX_FLAGS="-march=native" .
Лучше всего работает над Intel Haswell и более новыми процессорами (из -за расширений набора инструкций FMA и BMI).
Juman ++ - общий инструмент. Это не зависит от Jumandic или японского языка (хотя есть некоторые специфические для японца функциональность). Посмотрите на этот учебный проект, который показывает, как реализовать что -то похожее на текстовый ввод T9 для случая, когда нет границ слов в тексте ввода.
О самой модели: морфологический анализ для не сегментированных языков с использованием рецидивирующей модели языка нейронной сети . Хаджиме Морита, Дайсуке Кавахара, Садао Курохаши. EMNLP 2015 Ссылка, Bibtex.
V2 Улучшения: Juman ++ V2: практический и современный морфологический анализатор . Арсени Толмачев и Курохаши Садао. Материалы двадцати четвертого ежегодного собрания Ассоциации по обработке естественного языка. Март 2018 года, Окама, Япония. (PDF, слайды)
Семинар по морфологическому анализу в слайдах ANLP2018: 形態素解析システム Juman ++. 河原 大輔, Арсени Толмачев. (на японском) слайды.
Juman ++: инструментарий морфологического анализа для Scriptio Continua. Арсени Толмачев, Дайсуке Кавахара и Садао Курохаши. EMNLP 2018, Брюссель. PDF, плакат, Bibtex.
Дизайн и структура инструментария морфологического анализатора Juman ++. Арсени Толмачев, Дайсуке Кавахара, Садао Курохаши. Журнал обработки естественного языка, (Paper, Bibtex).
Если вы используете Juman ++ V1 в академических условиях, пожалуйста, укажите первую работу (EMNLP2015). Если вы используете Juman ++ v2, то укажите как первую, так и четвертую (EMNLP2018).
Список всех библиотек, используемых Juman ++, здесь.
Это ветвь для переписывания Juman ++. Оригинальная версия живет в устаревшем филиале.