พื้นที่เก็บข้อมูลให้ไฟล์การจัดตำแหน่งสไตล์ HTK/HTS พร้อมฉลากบริบทเต็มเพิ่มเติมสำหรับ JSUT (คลังคำพูดญี่ปุ่นของ Saruwatari-Lab. มหาวิทยาลัยโตเกียว) คอร์ปัส (v1.1) ไฟล์การจัดตำแหน่งทั้งหมด (.lab) ถูกสกัดโดยการจัดตำแหน่งแบบบังคับโดยใช้ Julius และบริบทเต็มรูปแบบถูกสร้างขึ้นโดย OpenJTalk
ไฟล์ฉลากคาดว่าจะใช้สำหรับการใช้คำพูด เช่นการแปลงข้อความเป็นคำพูดและเสียง
โครงสร้างไดเรกทอรีเหมือนกับ JSUT คุณสามารถใส่ไฟล์ป้ายกำกับไปยังไดเรกทอรีข้อมูล JSUT ได้หากคุณต้องการ:
tree ~/data/jsut_ver1.1/ -d -L 2
/home/ryuichi/data/jsut_ver1.1/
├── basic5000
│ ├── lab
│ └── wav
├── countersuffix26
│ ├── lab
│ └── wav
├── loanword128
│ ├── lab
│ └── wav
├── onomatopee300
│ ├── lab
│ └── wav
├── precedent130
│ ├── lab
│ └── wav
├── repeat500
│ ├── lab
│ └── wav
├── travel1000
│ ├── lab
│ └── wav
├── utparaphrase512
│ ├── lab
│ └── wav
└── voiceactress100
├── lab
└── wav
ฟิลด์: <begin_time> <end_time> <full-context-label> > เวลาอยู่ในหน่วย 100NS เหมือนกับฉลาก HTK
$ cat basic5000/lab/BASIC5000_0773.lab | head
0 2525000 xx^xx-sil+s=a/A:xx+xx+xx/B:xx-xx_xx/C:xx_xx+xx/D:18+xx_xx/E:xx_xx!xx_xx-xx/F:xx_xx#xx_xx@xx_xx|xx_xx/G:6_3%0_xx_xx/H:xx_xx/I:xx-xx@xx+xx&xx-xx|xx+xx/J:1_6/K:3+6-32
2525000 3825000 xx^sil-s+a=N/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
3825000 4825000 sil^s-a+N=g/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
4825000 5825000 s^a-N+g=i/A:-1+2+5/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
5825000 6125000 a^N-g+i=i/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
6125000 7524999 N^g-i+i=N/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
7524999 8125000 g^i-i+N=w/A:1+4+3/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8125000 8425000 i^i-N+w=a/A:2+5+2/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8425000 10125000 i^N-w+a=pau/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
10125000 11325000 N^w-a+pau=d/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
สำหรับรายละเอียดโปรดดูเอกสาร HTS: http://hts.sp.nitech.ac.jp
หากคุณต้องการสร้างระบบ TTS แบบดั้งเดิมของ DNN โปรดตรวจสอบบทช่วยสอนที่ https://r9y9.github.io/nnmnkwii/latest/ คุณสามารถใช้การจัดตำแหน่งและฉลากบริบทเต็มรูปแบบเพื่อสร้างคุณสมบัติทางภาษา
หากคุณถูก intersted ในแนวทาง end-to-end โปรดดูที่ https://github.com/espnet/espnet ฉลากถูกใช้ในขั้นตอนการประมวลผลล่วงหน้าสำหรับสูตร JSUT (ดู https://r9y9.github.io/blog/2017/11/12/jsut_ver1/ เพื่อให้รู้ว่าทำไมเราต้องจัดตำแหน่งสำหรับ TTS end-to-end)
การแฮ็กคำพูดที่มีความสุข!
https://github.com/r9y9/segmentation-kit/tree/jsut3