jsut lab Download - jsut lab -Quellcode Download

jsut lab

AI-Quellcode

v0.1.1 Release

Herunterladen

JSUT-LAB

Das Repository bietet Alignment-Dateien im HTK/HTS-Stil mit zusätzlichen Vollkontext-Labels für JSUT (japanischer Sprachkorpus von Saruwatari-Lab., University of Tokyo) Corpus (V1.1). Alle Ausrichtungsdateien (.lab) wurden durch erzwungene Ausrichtung unter Verwendung von Julius extrahiert und Vollkontexte werden von OpenJtalk generiert.

Es wird erwartet, dass die Etikettendateien für die Reach für die Sprache verwendet werden. z. B. Text-to-Speech- und Sprachumwandlung.

Die Verzeichnisstruktur ist genau das gleiche wie der JSUT. Sie können die Etikettendateien in das JSUT -Datenverzeichnis einfügen, wenn Sie möchten:

 tree ~/data/jsut_ver1.1/ -d -L 2
/home/ryuichi/data/jsut_ver1.1/
├── basic5000
│   ├── lab
│   └── wav
├── countersuffix26
│   ├── lab
│   └── wav
├── loanword128
│   ├── lab
│   └── wav
├── onomatopee300
│   ├── lab
│   └── wav
├── precedent130
│   ├── lab
│   └── wav
├── repeat500
│   ├── lab
│   └── wav
├── travel1000
│   ├── lab
│   └── wav
├── utparaphrase512
│   ├── lab
│   └── wav
└── voiceactress100
    ├── lab
    └── wav

Etikettformat

Felder: <begin_time> <end_time> <full-context-label> . Die Zeit ist in 100 -ns -Einheiten genauso wie HTK -Etiketten.

 $ cat basic5000/lab/BASIC5000_0773.lab | head
 
0 2525000 xx^xx-sil+s=a/A:xx+xx+xx/B:xx-xx_xx/C:xx_xx+xx/D:18+xx_xx/E:xx_xx!xx_xx-xx/F:xx_xx#xx_xx@xx_xx|xx_xx/G:6_3%0_xx_xx/H:xx_xx/I:xx-xx@xx+xx&xx-xx|xx+xx/J:1_6/K:3+6-32
2525000 3825000 xx^sil-s+a=N/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
3825000 4825000 sil^s-a+N=g/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
4825000 5825000 s^a-N+g=i/A:-1+2+5/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
5825000 6125000 a^N-g+i=i/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
6125000 7524999 N^g-i+i=N/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
7524999 8125000 g^i-i+N=w/A:1+4+3/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8125000 8425000 i^i-N+w=a/A:2+5+2/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8425000 10125000 i^N-w+a=pau/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
10125000 11325000 N^w-a+pau=d/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32

Weitere Informationen finden Sie in HTS -Dokumenten: http://hts.sp.nitech.ac.jp

Was kann ich damit machen?

Wenn Sie traditionelle DNN-basierte TTS-Systeme erstellen möchten, lesen Sie bitte die Tutorials unter https://r9y9.github.io/nnmnkwii/latest/. Sie können Ausrichtungs- und Vollkontext-Etiketten verwenden, um sprachliche Funktionen zu generieren.

Wenn Sie sich in End-to-End-Ansätzen interessieren, sehen Sie sich https://github.com/espnet/espnet an. Die Beschriftungen werden in der Vorverarbeitungsphase für das JSUT-Rezept verwendet (siehe auch https://r9y9.github.io/blog/2017/11/12/jsut_ver1/, um zu wissen, warum wir Ausrichtungen für End- und End-TTs benötigen).

Happy Speech Hacking!

Quellcode zum Generieren von Etiketten

https://github.com/r9y9/segmentation-kit/tree/jsut3

Beachten

Ausrichtungen haben wahrscheinlich Fehler, da sie automatisch von Julius generiert wurden. Beachten Sie, dass sie keine handgepackten Etiketten sind.

Referenzen

JSUT (japanischer Sprachkorpus von Saruwatari-Lab., Universität von Tokio)
HTS
Julius
OpenJtalk
日本語 End-to-End 音声合成に使えるコーパス JSUT の前処理 [ARXIV: 1711.00354]
Pyopenjtalk
nnmnkwii
Sarulab-Speech/JSUT-Label handanotierte phonetische und prosodische Informationen von Saruwatari-Lab.

Expandieren

Zusätzliche Informationen