ดาวน์โหลด jpreprocess - jpreprocess ซอร์สโค้ดดาวน์โหลด

jpreprocess

โค้ดแหล่งที่มา AI

v0.10.0

ดาวน์โหลด

jpreprocess

มันแยกวิเคราะห์ประโยคญี่ปุ่นและสร้างฉลากบริบทเต็มรูปแบบ

นี่คือการเขียนใหม่ของส่วนการประมวลผลล่วงหน้าของ OpenJTalk (นอกเหนือจากเครื่องยนต์ HTS) โดยใช้ Rust

เป้าหมายและนโยบาย

แทนที่จะเพียงแค่ถ่ายโอนโครงสร้าง OpenJTalk มันถูกออกแบบมาให้อ่านและเขียนได้ง่ายที่สุด
ในขณะที่ลดขนาดของไฟล์พจนานุกรมด้วยรูปแบบพจนานุกรมของตัวเองมันยังใช้พจนานุกรม "ข้อมูลทั้งหมดเป็นสตริง" แบบดั้งเดิม
- ไม่สามารถใช้งานร่วมกับพจนานุกรม Mecab ได้ แต่คุณสามารถสร้างพจนานุกรมโดยใช้ไฟล์ CSV เดียวกับที่คุณใช้ในการสร้างพจนานุกรม Mecab
ยกเว้นคุณสมบัติบางอย่างที่ดูเหมือนจะเป็นข้อบกพร่องคุณจะได้รับเอาต์พุตเดียวกัน (ฉลากบริบทเต็ม) เป็น OpenJTalk
- ตัวอย่างเช่นวิธีการอ่าน "คำกริยาเสริมพิเศษ" และสับสน 2, 2, 3 ตัวเลขที่แยกจากกันนั้นแตกต่างจาก OpenJTalk
- แม้ว่ามันจะไม่กำจัดการเพิ่มคุณสมบัติใหม่ แต่เราต้องการให้แน่ใจว่ายังมีวิธีที่จะได้รับผลลัพธ์เช่นเดียวกับ OpenJTalk โดยใช้ตัวเลือกเวอร์ชันคุณสมบัติ ฯลฯ
ที่เก็บนี้ไม่สามารถจัดการกับเครื่องยนต์ HTS ได้
- มันสนับสนุนการสร้างป้ายกำกับบริบทเต็มรูปแบบ แต่นอกเหนือจากนั้นมันอยู่นอกขอบเขตของที่เก็บนี้
- โครงการเพื่อเขียนเครื่องยนต์ HTS ที่มีสนิมสามารถพบได้ที่ JPreprocess/Jbonsai

ลัง

jpreprocess

มันเป็นอินเทอร์เฟซหลัก มันเป็น wrapper สำหรับ Lindera, Jpreprocess-NJD, Jpreprocess-jpcommon และอื่น ๆ คำในผลการวิเคราะห์จะถูกเก็บไว้ในโครงสร้างข้อมูลที่กำหนดโดย JPreprocess-Core

ตัวอย่าง:

 use jpreprocess :: * ;

let config = JPreprocessConfig {
     dictionary : SystemDictionaryConfig :: File ( path ) ,
     user_dictionary : None ,
 } ;
let jpreprocess = JPreprocess :: from_config ( config ) ? ;

let jpcommon_label = jpreprocess
    . extract_fullcontext ( "日本語文を解析し、音声合成エンジンに渡せる形式に変換します．" ) ? ;
assert_eq ! (
  jpcommon_label [ 2 ] . to_string ( ) ,
  concat! (
      "sil^n-i+h=o" ,
      "/A:-3+1+7" ,
      "/B:xx-xx_xx" ,
      "/C:02_xx+xx" ,
      "/D:02+xx_xx" ,
      "/E:xx_xx!xx_xx-xx" ,
      "/F:7_4#0_xx@1_3|1_12" ,
      "/G:4_4%0_xx_1" ,
      "/H:xx_xx" ,
      "/I:3-12@1+2&1-8|1+41" ,
      "/J:5_29" ,
      "/K:2+8-41"
  )
) ;

jpreprocess-core

มันรวมถึงโครงสร้างข้อมูลเช่นการออกเสียงคำส่วนของคำพูด jpcommon และฟังก์ชั่นและโครงสร้างที่เกี่ยวข้องอื่น ๆ ที่แสดงถึงข้อผิดพลาด pos เป็นตัวย่อสำหรับส่วนหนึ่งของการพูดและแสดงถึง "ส่วนหนึ่งของการพูด"

Jpreprocess-dictionary

โหลดพจนานุกรมคำที่สร้างโดย JPReprocess-Builder ลงในหน่วยความจำทำให้สามารถค้นหาคำได้

ในเวลานี้รูปแบบพจนานุกรมจะถูกกำหนดโดยอัตโนมัติ

jpreprocess-builder

พจนานุกรมดั้งเดิมอยู่ในรูปแบบ CSV เดียวกับ MECAB แต่คุณต้องสร้างพจนานุกรมเฉพาะล่วงหน้าเพื่อให้สามารถวิเคราะห์ด้วยความเร็วสูงกับ Lindera

มันถูกสร้างขึ้นตาม Lindera-ipadic-builder ของ Lindera แต่ Jpreprocess-Builder ยังแยกวิเคราะห์สตริงล่วงหน้าและสามารถสร้างพจนานุกรม (พจนานุกรม JPreprocess) ที่สามารถประมวลผลโดยตรงกับ JPReprocess

jpreprocess-naist-jdic

สร้างพจนานุกรมสำหรับ JPreprocess โดยใช้พจนานุกรมที่ส่งมาพร้อมกับ OpenJTalk ใช้สำหรับคุณสมบัติ naist-jdic ของ JPREPROCESS CRATE

โปรดทราบว่าหากคุณเปิดใช้งานคุณสมบัติ naist-jdic และรวมถึงลังนี้จะใช้เวลาหลายนาทีในการสร้าง

jpreprocess-njd

มันกำหนดโครงสร้างของ NJDNode และ NJD ใน OpenJTalk และดำเนินการประมวลผลการแปลงสำหรับ NJD

โดยเฉพาะอย่างยิ่งมันแปลงการอ่านตัวเลข (ตัวอย่างเช่น "10,120" เป็น "Ichiman Hyakuniju") และประมาณตำแหน่งสำเนียง

jpreprocess-jpcommon

มันกำหนดโครงสร้างของ JPCommonLabel ใน OpenJTalk และแปลงจาก NJD เป็น JPCommon จากนั้น JPCommon เป็นฉลากบริบทเต็มรูปแบบ

jpreprocess-window

ใช้หน้าต่างที่ไม่แน่นอนที่ใช้ในกระบวนการแปลง JPReprocess-NJD

ลิขสิทธิ์

ซอฟต์แวร์นี้มีซอร์สโค้ดจาก:

OpenJTalk ลิขสิทธิ์ (C) 2008-2016 สถาบันเทคโนโลยีนาโกย่าภาควิชาวิทยาการคอมพิวเตอร์
Lindera ลิขสิทธิ์ (c) 2019 โดยผู้เขียนโครงการ
YADA: ยังมีอีกสองอาเรย์

แม้ว่าที่เก็บนี้มีไฟล์ CodeOwners แต่ก็ไม่ได้หมายความว่านักพัฒนาที่อยู่ในไฟล์ CodeOwners มีลิขสิทธิ์สำหรับไฟล์ทั้งหมดในที่เก็บนี้ ลิขสิทธิ์มีการระบุไว้ในไฟล์แจ้งหรือใบอนุญาตและไฟล์ CodeOwners เป็นเพียงการตรวจสอบรหัส