เครื่องวิเคราะห์ทางสัณฐานวิทยาใหม่ที่พิจารณาความน่าเชื่อถือของลำดับความหมายของลำดับคำโดยใช้โมเดลภาษาเครือข่ายประสาทที่เกิดขึ้นซ้ำ (RNNLM) เวอร์ชัน 2 มีความแม่นยำที่ดีขึ้นและความเร็วในการวิเคราะห์ที่ดีขึ้นอย่างมาก (> 250x) มากกว่า Juman ++ ดั้งเดิม
sudo apt install libprotobuf-dev protobuf-compilerอ่านเอกสารนี้สำหรับอนุพันธ์ Centos และ Rhel หรือทางเลือกที่ไม่ใช่ cmake
ดาวน์โหลดแพ็คเกจจากรุ่น
สำคัญ : การดาวน์โหลดควรอยู่ที่ประมาณ 300 MB หากไม่ใช่คุณอาจดาวน์โหลดสแน็ปช็อตต้นทางซึ่งไม่มีโมเดล
$ tar xf jumanpp- < version > .tar.xz # decompress the package
$ cd jumanpp- < version > # move into the directory
$ mkdir bld # make a subdirectory for build
$ cd bld
$ cmake ..
-DCMAKE_BUILD_TYPE=Release # you want to do this for performance
-DCMAKE_INSTALL_PREFIX= < prefix > # where to install Juman++
$ make install -j < parallelism > สำคัญ : เฉพาะการกระจายแพ็คเกจเท่านั้นที่มีรูปแบบที่ผ่านการฝึกอบรมและสามารถใช้สำหรับการวิเคราะห์ รุ่น GIT ปัจจุบันไม่สามารถใช้งานได้กับรุ่น 2.0-RC1 และ 2.0-RC2
$ mkdir cmake-build-dir # CMake does not support in-source builds
$ cd cmake-build-dir
$ cmake ..
$ make # -j % echo "魅力がたっぷりと詰まっている" | jumanpp
魅力 みりょく 魅力 名詞 6 普通名詞 1 * 0 * 0 "代表表記:魅力/みりょく カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
たっぷり たっぷり たっぷり 副詞 8 * 0 * 0 * 0 "自動認識"
と と と 助詞 9 格助詞 1 * 0 * 0 NIL
詰まって つまって 詰まる 動詞 2 * 0 子音動詞ラ行 10 タ系連用テ形 14 "代表表記:詰まる/つまる ドメイン:料理・食事 自他動詞:他:詰める/つめる"
いる いる いる 接尾辞 14 動詞性接尾辞 7 母音動詞 1 基本形 2 "代表表記:いる/いる"
EOS
usage: jumanpp [options]
-s, --specifics lattice format output (unsigned int [=5])
--beam <int> set local beam width used in analysis (unsigned int [=5])
-v, --version print version
-h, --help print this message
--model <file> specify a model location
ใช้ --help ช่วยดูตัวเลือกเพิ่มเติม
Juman ++ สามารถจัดการเฉพาะข้อความที่เข้ารหัส UTF-8 เป็นอินพุต บรรทัดที่เริ่มต้นด้วย # จะถูกตีความเป็นความคิดเห็น
ชุดสคริปต์สำหรับการฝึกอบรมแบบจำลอง jumandic มีอยู่ในที่เก็บนี้ เป็นไปได้ที่จะปรับเปลี่ยนพจนานุกรมระบบเพื่อเพิ่มรายการอื่น ๆ ในรูปแบบที่ผ่านการฝึกอบรม
ความสนใจ : คุณต้องเข้าถึง Mainichi Shinbun สำหรับปี 1995 เพื่อให้สามารถใช้คลังข้อมูล Kyoto Univeristy สำหรับการฝึกอบรม
คุณสามารถเล่นรอบ ๆ การสาธิตเว็บของเราซึ่งแสดงชุดย่อยของตาข่ายทั้งหมด การสาธิตยังคงใช้ V1 แต่จะได้รับการอัปเดตเป็น V2 เร็ว ๆ นี้
คุณสามารถดูประโยคที่การกำหนดค่าลำแสงที่แตกต่างกันสองแบบสร้างการวิเคราะห์ที่แตกต่างกัน src/jumandic/jpp_jumandic_pathdiff ไบนารี (แหล่งที่มา) (เทียบกับรากการรวบรวม) ทำ สิ่งเดียวที่เฉพาะเจาะจง Jumandic ที่นี่คือการใช้การอนุมานแบบจำลองเชิงเส้นที่สร้างจากรหัส
ใช้ไบนารีเป็น jpp_jumandic_pathdiff <model> <input> > <output>
ผลลัพธ์จะอยู่ในรูปแบบคำอธิบายประกอบบางส่วนที่มีผลลัพธ์ลำแสงเต็มรูปแบบเป็นแท็กจริงและผลลัพธ์ของลำแสงที่ถูกตัดแต่งเป็นความคิดเห็น
ตัวอย่าง:
# scores: -0.602687 -1.20004
# 子がい pos:名詞 subpos:普通名詞 <------- trimmed beam result
# S-ID:w201007-0080605751-6 COUNT:2
熊本選抜にはマリノス、アントラーズのユースに行く
子 pos:名詞 subpos:普通名詞 <------- full beam result
が pos:助詞 subpos:格助詞
い baseform:いる conjtype:母音動詞 pos:動詞 conjform:基本連用形
ます
นอกจากนี้เรายังมีเครื่องมือคำอธิบายประกอบบางส่วน โปรดดู https://github.com/eiennohito/nlp-tools-demo สำหรับรายละเอียด
เพื่อให้ได้ประสิทธิภาพที่ดีที่สุดคุณต้องสร้างด้วยชุดคำสั่งเพิ่มเติม หากคุณวางแผนที่จะใช้ Juman ++ เท่านั้นให้ระบุ -DCMAKE_CXX_FLAGS="-march=native"
ทำงานได้ดีที่สุดใน Intel Haswell และโปรเซสเซอร์ที่ใหม่กว่า (เนื่องจากชุดคำสั่ง FMA และ BMI ชุดขยาย)
Juman ++ เป็นเครื่องมือทั่วไป มันไม่ได้ขึ้นอยู่กับภาษา Jumandic หรือภาษาญี่ปุ่น (แม้ว่าจะมีฟังก์ชั่นเฉพาะของญี่ปุ่น) ดูโครงการบทช่วยสอนนี้ซึ่งแสดงวิธีการใช้สิ่งที่คล้ายกับอินพุตข้อความ T9 สำหรับกรณีเมื่อไม่มีขอบเขตคำในข้อความอินพุต
เกี่ยวกับโมเดลเอง: การวิเคราะห์ทางสัณฐานวิทยาสำหรับภาษาที่ไม่ได้รับการยอมรับโดยใช้แบบจำลองภาษาเครือข่ายประสาทที่เกิดขึ้นซ้ำ Hajime Morita, Daisuke Kawahara, Sadao Kurohashi ลิงค์ EMNLP 2015, Bibtex
การปรับปรุง V2: Juman ++ V2: เครื่องวิเคราะห์ทางสัณฐานวิทยาที่ใช้งานได้จริงและทันสมัย Arseny Tolmachev และ Kurohashi Sadao การดำเนินการของการประชุมประจำปียี่สิบสี่ของสมาคมเพื่อการประมวลผลภาษาธรรมชาติ มีนาคม 2018, Okayama, ญี่ปุ่น (PDF, สไลด์)
เวิร์กช็อปการวิเคราะห์ทางสัณฐานวิทยาในสไลด์ ANLP2018: 形態素解析システム Juman ++ 河原, Arseny Tolmachev (เป็นภาษาญี่ปุ่น) สไลด์
Juman ++: ชุดเครื่องมือวิเคราะห์ทางสัณฐานวิทยาสำหรับ Scriptio Continua Arseny Tolmachev, Daisuke Kawahara และ Sadao Kurohashi EMNLP 2018, บรัสเซลส์ PDF, โปสเตอร์, Bibtex
การออกแบบและโครงสร้างของชุดเครื่องมือวิเคราะห์ทางสัณฐานวิทยาของ Juman ++ Arseny Tolmachev, Daisuke Kawahara, Sadao Kurohashi วารสารการประมวลผลภาษาธรรมชาติ (กระดาษ, bibtex)
หากคุณใช้ Juman ++ V1 ในการตั้งค่าทางวิชาการโปรดอ้างอิงงานแรก (EMNLP2015) หากคุณใช้ Juman ++ V2 โปรดอ้างอิงทั้งเอกสารฉบับแรกและครั้งที่สี่ (EMNLP2018)
รายการของไลบรารีทั้งหมดที่ Juman ++ ใช้อยู่ที่นี่
นี่คือสาขาสำหรับ Juman ++ Rewrite เวอร์ชันดั้งเดิมอาศัยอยู่ในสาขามรดก