загрузка jumanpp - загрузка исходного кода jumanpp

jumanpp

Другой исходный код

1.0.0

Скачать

Что такое Juman ++

Новый морфологический анализатор, который рассматривает семантическую правдоподобие последовательностей слов, используя рецидивирующую модель языка нейронной сети (RNNLM). Версия 2 имеет лучшую точность и значительную (> 250x) улучшенную скорость анализа, чем оригинальный Juman ++.

Установка

Системные требования

ОС: Linux, MacOS X или Windows.
Компилятор: C ++ 14 Совместимый
- Например, GCC 5.1+, Clang 3.4+, MSVC 2017
- Мы тестируем на GCC и Clang на Linux/MacOS, Mingw64-GCC и MSVC2017 в Windows

Cmake v3.1 или позже
Для Ubuntu22.04 вам необходимо установить дополнительные пакеты следующим образом: sudo apt install libprotobuf-dev protobuf-compiler

Прочитайте этот документ для производных CentOS и RHEL или альтернативы, не являющихся CMAKE.

Здание из упаковки

Загрузите пакет из релизов

Важно : загрузка должна быть около 300 МБ. Если вы, вероятно, не загрузили источник, который не содержит модель.

$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake .. 
  -DCMAKE_BUILD_TYPE=Release  # you want to do this for performance
  -DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism >

Здание от git

Важно : только распределение пакетов содержит предварительную модель и может использоваться для анализа. Текущая версия GIT не совместима с моделями 2,0-RC1 и 2,0-RC2.

$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j

Использование

Быстрый старт

 % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS

Основные варианты

 usage: jumanpp [options] 
  -s, --specifics              lattice format output (unsigned int [=5])
  --beam <int>                 set local beam width used in analysis (unsigned int [=5])
  -v, --version                print version
  -h, --help                   print this message
  --model <file>               specify a model location

Используйте --help , чтобы увидеть больше вариантов.

Вход

Juman ++ может обрабатывать только кодированный текст UTF-8 в качестве ввода. Линии, начиная с # будут интерпретироваться как комментарии.

Обучение модели Jumandic

Набор сценариев для обучения модели Jumandic доступен в этом хранилище. Можно изменить системный словарь, чтобы добавить другие записи в обученную модель.

Внимание : вам нужен доступ к Mainichi Shinbun в 1995 году, чтобы иметь возможность использовать Kyoto Univeristy Corpus для обучения.

Другой

Демо

Вы можете играть вокруг нашей веб -демонстрации, которая отображает подмножество всей решетки. Демонстрация все еще использует V1, но скоро будет обновлена V2.

Извлечение различий, вызванных конфигурациями луча

Вы можете увидеть предложения, в которых две различные конфигурации луча создают различные анализы. src/jumandic/jpp_jumandic_pathdiff BINAR (Source) (по сравнению с корнем компиляции) делает это. Единственная специфичная для Jumandic здесь-это использование вывода линейной модели, сгенерированной кодом.

Используйте двоичный файл как jpp_jumandic_pathdiff <model> <input> > <output> .

Выходы будут в формате частичной аннотации, и результаты полного луча являются фактическими тегами и обрезанными результатами луча, написанные в виде комментариев.

Пример:

 # scores: -0.602687 -1.20004
# 子がい        pos:名詞        subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
        子      pos:名詞        subpos:普通名詞 <------- full beam result
        が      pos:助詞        subpos:格助詞
        い      baseform:いる   conjtype:母音動詞       pos:動詞        conjform:基本連用形
ます

Инструмент частичной аннотации

У нас также есть частичный инструмент аннотации. Пожалуйста, смотрите https://github.com/eiennohito/nlp-tools-demo для получения подробной информации.

Примечания производительности

Чтобы получить наилучшую производительность, вам нужно построить с расширенными наборами инструкций. Если вы планируете использовать Juman ++ только локально, укажите -DCMAKE_CXX_FLAGS="-march=native" .

Лучше всего работает над Intel Haswell и более новыми процессорами (из -за расширений набора инструкций FMA и BMI).

Использование Juman ++ для создания собственного морфологического анализатора

Juman ++ - общий инструмент. Это не зависит от Jumandic или японского языка (хотя есть некоторые специфические для японца функциональность). Посмотрите на этот учебный проект, который показывает, как реализовать что -то похожее на текстовый ввод T9 для случая, когда нет границ слов в тексте ввода.

Публикации и слайды

О самой модели: морфологический анализ для не сегментированных языков с использованием рецидивирующей модели языка нейронной сети . Хаджиме Морита, Дайсуке Кавахара, Садао Курохаши. EMNLP 2015 Ссылка, Bibtex.
V2 Улучшения: Juman ++ V2: практический и современный морфологический анализатор . Арсени Толмачев и Курохаши Садао. Материалы двадцати четвертого ежегодного собрания Ассоциации по обработке естественного языка. Март 2018 года, Окама, Япония. (PDF, слайды)
Семинар по морфологическому анализу в слайдах ANLP2018: 形態素解析システム Juman ++. 河原大輔, Арсени Толмачев. (на японском) слайды.
Juman ++: инструментарий морфологического анализа для Scriptio Continua. Арсени Толмачев, Дайсуке Кавахара и Садао Курохаши. EMNLP 2018, Брюссель. PDF, плакат, Bibtex.
Дизайн и структура инструментария морфологического анализатора Juman ++. Арсени Толмачев, Дайсуке Кавахара, Садао Курохаши. Журнал обработки естественного языка, (Paper, Bibtex).

Если вы используете Juman ++ V1 в академических условиях, пожалуйста, укажите первую работу (EMNLP2015). Если вы используете Juman ++ v2, то укажите как первую, так и четвертую (EMNLP2018).

Авторы

Arseny tolmachev <Arseny at kotonoha.ws>
Hajime morita <hmorita at nlp.ist.i.kyoto-u.ac.jp>
Daisuke Kawahara <dk в i.kyoto-u.ac.jp>
Садао Курохаши <Куро в i.kyoto-u.ac.jp>

Подтверждение

Список всех библиотек, используемых Juman ++, здесь.

Уведомление

Это ветвь для переписывания Juman ++. Оригинальная версия живет в устаревшем филиале.

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-17
размер 1.13MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

jumanpp

Что такое Juman ++

Установка

Системные требования

Здание из упаковки

Здание от git

Использование

Быстрый старт

Основные варианты

Вход

Обучение модели Jumandic

Другой

Демо

Извлечение различий, вызванных конфигурациями луча

Инструмент частичной аннотации

Примечания производительности

Использование Juman ++ для создания собственного морфологического анализатора

Публикации и слайды

Авторы

Подтверждение

Уведомление

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express