Le référentiel fournit des fichiers d'alignement de style HTK / HTS avec des étiquettes supplémentaires en contexte complet pour JSUT (Corpus de discours japonais de Saruwatari-Lab., Université de Tokyo) Corpus (V1.1). Tous les fichiers d'alignement (.Lab) ont été extraits par alignement forcé à l'aide de Julius et des contextes complets sont générés par OpenJtalk.
Les fichiers d'étiquette devraient être utilisés pour la relance de la parole; Par exemple, la conversion de texte-parole et de voix.
La structure du répertoire est exactement la même que le JSUT. Vous pouvez mettre les fichiers d'étiquette dans le répertoire de données JSUT si vous le souhaitez:
tree ~/data/jsut_ver1.1/ -d -L 2
/home/ryuichi/data/jsut_ver1.1/
├── basic5000
│ ├── lab
│ └── wav
├── countersuffix26
│ ├── lab
│ └── wav
├── loanword128
│ ├── lab
│ └── wav
├── onomatopee300
│ ├── lab
│ └── wav
├── precedent130
│ ├── lab
│ └── wav
├── repeat500
│ ├── lab
│ └── wav
├── travel1000
│ ├── lab
│ └── wav
├── utparaphrase512
│ ├── lab
│ └── wav
└── voiceactress100
├── lab
└── wav
Fields: <begin_time> <end_time> <full-context-label> . Le temps est dans des unités de 100ns comme les étiquettes HTK.
$ cat basic5000/lab/BASIC5000_0773.lab | head
0 2525000 xx^xx-sil+s=a/A:xx+xx+xx/B:xx-xx_xx/C:xx_xx+xx/D:18+xx_xx/E:xx_xx!xx_xx-xx/F:xx_xx#xx_xx@xx_xx|xx_xx/G:6_3%0_xx_xx/H:xx_xx/I:xx-xx@xx+xx&xx-xx|xx+xx/J:1_6/K:3+6-32
2525000 3825000 xx^sil-s+a=N/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
3825000 4825000 sil^s-a+N=g/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
4825000 5825000 s^a-N+g=i/A:-1+2+5/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
5825000 6125000 a^N-g+i=i/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
6125000 7524999 N^g-i+i=N/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
7524999 8125000 g^i-i+N=w/A:1+4+3/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8125000 8425000 i^i-N+w=a/A:2+5+2/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8425000 10125000 i^N-w+a=pau/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
10125000 11325000 N^w-a+pau=d/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
Pour plus de détails, veuillez consulter les documents HTS: http://hts.sp.nitech.ac.jp
Si vous souhaitez fabriquer des systèmes TTS basés sur DNN traditionnels, veuillez consulter les tutoriels sur https://r9y9.github.io/nnmnkwii/latest/. Vous pouvez utiliser des étiquettes d'alignement et de contexte complet pour générer des fonctionnalités linguistiques.
Si vous êtes interstime dans les approches de bout en bout, veuillez consulter https://github.com/espnet/espnet. Les étiquettes sont utilisées au stade de prétraitement pour la recette JSUT (voir aussi https://r9y9.github.io/blog/2017/11/12/jsut_ver1/ pour savoir pourquoi nous avons besoin d'alignements pour les tts finaux).
Happy Speech Hacking!
https://github.com/r9y9/segmentation-kit/tree/jsut3