jumanpp 다운로드 jumanpp 소스 코드 다운로드

jumanpp

기타 소스코드

1.0.0

다운로드

Juman ++이란 무엇입니까?

RNNLM (Reburrent Neural Network Language Model)을 사용하여 단어 시퀀스의 의미 적 타당성을 고려하는 새로운 형태 분석기. 버전 2는 원래 Juman ++보다 정확도가 향상되고 분석 속도가 향상되었습니다.

설치

시스템 요구 사항

OS : Linux, MacOS X 또는 Windows.
컴파일러 : C ++ 14 호환
- 예를 들어 GCC 5.1+, Clang 3.4+, MSVC 2017
- Windows에서 Linux/MacOS, Mingw64-GCC 및 MSVC2017에서 GCC 및 Clang을 테스트합니다.

Cmake v3.1 이상
Ubuntu22.04의 경우 다음과 같이 추가 패키지를 설치해야합니다. sudo apt install libprotobuf-dev protobuf-compiler

Centos 및 Rhel 유도체 또는 비 Cmake 대안에 대한이 문서를 읽으십시오.

패키지에서 건축

릴리스에서 패키지를 다운로드하십시오

중요 : 다운로드는 약 300MB 여야합니다. 그렇지 않은 경우 모델이 포함되어 있지 않은 소스 스냅 샷을 다운로드했을 것입니다.

$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake .. 
  -DCMAKE_BUILD_TYPE=Release  # you want to do this for performance
  -DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism >

git에서 건물

중요 : 패키지 분포 만 사전 예방 모델이 포함되어 있으며 분석에 사용할 수 있습니다. 현재 GIT 버전은 2.0-RC1 및 2.0-RC2 모델과 호환되지 않습니다.

$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j

용법

빠른 시작

 % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS

주요 옵션

 usage: jumanpp [options] 
  -s, --specifics              lattice format output (unsigned int [=5])
  --beam <int>                 set local beam width used in analysis (unsigned int [=5])
  -v, --version                print version
  -h, --help                   print this message
  --model <file>               specify a model location

더 많은 옵션을 보려면 --help 사용하십시오.

입력

Juman ++는 UTF-8 인코딩 된 텍스트 만 입력으로 처리 할 수 있습니다. # 로 시작하는 줄은 주석으로 해석됩니다.

점수 적 모델 훈련

이 저장소에서는 Jumandic 모델을 훈련하기위한 스크립트 세트를 사용할 수 있습니다. 숙련 된 모델에 다른 항목을 추가하려면 시스템 사전을 수정할 수 있습니다.

주의 : 1995 년에 Mainichi Shinbun에 액세스 할 수 있으려면 Kyoto Univeristy Corpus를 훈련을 위해 사용할 수 있어야합니다.

다른

데모

전체 격자의 서브 세트를 표시하는 웹 데모 주위를 재생할 수 있습니다. 데모는 여전히 v1을 사용하지만 곧 V2로 업데이트됩니다.

빔 구성으로 인한 DIFF 추출

두 개의 다른 빔 구성이 다른 분석을 생성하는 문장을 볼 수 있습니다. src/jumandic/jpp_jumandic_pathdiff binary (source) (컴파일 루트에 비해)가 수행합니다. 여기서 유일한 점수에 따른 것은 코드 생성 선형 모델 추론의 사용입니다.

바이너리를 jpp_jumandic_pathdiff <model> <input> > <output> 로 사용하십시오.

출력은 전체 빔 결과가 실제 태그와 주석으로 작성되는 트림 된 빔 결과 인 부분 주석 형식이 될 것입니다.

예:

 # scores: -0.602687 -1.20004
# 子がい        pos:名詞        subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
        子      pos:名詞        subpos:普通名詞 <------- full beam result
        が      pos:助詞        subpos:格助詞
        い      baseform:いる   conjtype:母音動詞       pos:動詞        conjform:基本連用形
ます

부분 주석 도구

또한 부분 주석 도구가 있습니다. 자세한 내용은 https://github.com/eiennohito/nlp-tools-demo를 참조하십시오.

성능 노트

최상의 성능을 얻으려면 확장 명령 세트로 구축해야합니다. Juman ++를 로컬로만 사용하려는 경우 -DCMAKE_CXX_FLAGS="-march=native" 지정하십시오.

Intel Haswell 및 새로운 프로세서 (FMA 및 BMI 명령 세트 확장으로 인해)에서 가장 잘 작동합니다.

Juman ++를 사용하여 자신만의 형태 분석기를 만듭니다

Juman ++는 일반적인 도구입니다. 그것은 점수 또는 일본어에 의존하지 않습니다 (일본어 특정 기능이 있지만). 입력 텍스트에 단어 경계가 없을 때 케이스에 대한 T9 텍스트 입력과 유사한 것을 구현하는 방법을 보여주는이 튜토리얼 프로젝트를 참조하십시오.

출판물 및 슬라이드

모델 자체에 대해 : 재발 성 신경 네트워크 언어 모델을 사용하여 분류되지 않은 언어에 대한 형태 학적 분석 . Hajime Morita, Daisuke Kawahara, Sadao Kurohashi. EMNLP 2015 링크, Bibtex.
V2 개선 : Juman ++ V2 : 실용적이고 현대적인 형태 분석기 . Arseny Tolmachev와 Kurohashi Sadao. 자연 언어 처리 협회의 24 번째 연례 회의의 절차. 2018 년 3 월, 일본 오카야마. (PDF, 슬라이드)
ANLP2018 슬라이드의 형태 학적 분석 워크샵 : 形態素解析システム Juman ++. 河原河原, Arseny Tolmachev. (일본어) 슬라이드.
Juman ++ : Scriptio Continua의 형태 학적 분석 툴킷. Arseny Tolmachev, Daisuke Kawahara 및 Sadao Kurohashi. EMNLP 2018, 브뤼셀. PDF, 포스터, Bibtex.
Juman ++ 형태 학적 분석기 툴킷의 설계 및 구조. Arseny Tolmachev, Daisuke Kawahara, Sadao Kurohashi. 자연어 처리 저널, (종이, Bibtex).

학업 환경에서 Juman ++ V1을 사용하는 경우 첫 번째 작업을 인용하십시오 (EMNLP2015). Juman ++ V2를 사용하는 경우 첫 번째와 네 번째 (EMNLP2018) 용지를 모두 인용하십시오.

저자

Kotonoha.ws 의 Arseny Tolmachev <Arseny>
Hajime Morita <nlp.ist.i.kyoto-U.ac.jp 의 Hmorita
Daisuke Kawahara <dk at I.kyoto-U.ac.jp>
sadao kurohashi <kuro at i.kyoto-u.ac.jp>

승인

Juman ++에서 사용하는 모든 라이브러리 목록은 여기에 있습니다.

알아채다

이것은 Juman ++ Rewrite의 지점입니다. 원래 버전은 레거시 브랜치에 있습니다.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-04-17
크기 1.13MB
출처 Github

jumanpp

Juman ++이란 무엇입니까?

설치

시스템 요구 사항

패키지에서 건축

git에서 건물

용법

빠른 시작

주요 옵션

입력

점수 적 모델 훈련

다른

데모

빔 구성으로 인한 DIFF 추출

부분 주석 도구

성능 노트

Juman ++를 사용하여 자신만의 형태 분석기를 만듭니다

출판물 및 슬라이드

저자

승인

알아채다

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express