Téléchargement jsut lab - Téléchargement du code source jsut lab

jsut lab

Code Source AI

v0.1.1 Release

Télécharger

JSUT-LAB

Le référentiel fournit des fichiers d'alignement de style HTK / HTS avec des étiquettes supplémentaires en contexte complet pour JSUT (Corpus de discours japonais de Saruwatari-Lab., Université de Tokyo) Corpus (V1.1). Tous les fichiers d'alignement (.Lab) ont été extraits par alignement forcé à l'aide de Julius et des contextes complets sont générés par OpenJtalk.

Les fichiers d'étiquette devraient être utilisés pour la relance de la parole; Par exemple, la conversion de texte-parole et de voix.

La structure du répertoire est exactement la même que le JSUT. Vous pouvez mettre les fichiers d'étiquette dans le répertoire de données JSUT si vous le souhaitez:

 tree ~/data/jsut_ver1.1/ -d -L 2
/home/ryuichi/data/jsut_ver1.1/
├── basic5000
│   ├── lab
│   └── wav
├── countersuffix26
│   ├── lab
│   └── wav
├── loanword128
│   ├── lab
│   └── wav
├── onomatopee300
│   ├── lab
│   └── wav
├── precedent130
│   ├── lab
│   └── wav
├── repeat500
│   ├── lab
│   └── wav
├── travel1000
│   ├── lab
│   └── wav
├── utparaphrase512
│   ├── lab
│   └── wav
└── voiceactress100
    ├── lab
    └── wav

Format d'étiquette

Fields: <begin_time> <end_time> <full-context-label> . Le temps est dans des unités de 100ns comme les étiquettes HTK.

 $ cat basic5000/lab/BASIC5000_0773.lab | head
 
0 2525000 xx^xx-sil+s=a/A:xx+xx+xx/B:xx-xx_xx/C:xx_xx+xx/D:18+xx_xx/E:xx_xx!xx_xx-xx/F:xx_xx#xx_xx@xx_xx|xx_xx/G:6_3%0_xx_xx/H:xx_xx/I:xx-xx@xx+xx&xx-xx|xx+xx/J:1_6/K:3+6-32
2525000 3825000 xx^sil-s+a=N/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
3825000 4825000 sil^s-a+N=g/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
4825000 5825000 s^a-N+g=i/A:-1+2+5/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
5825000 6125000 a^N-g+i=i/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
6125000 7524999 N^g-i+i=N/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
7524999 8125000 g^i-i+N=w/A:1+4+3/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8125000 8425000 i^i-N+w=a/A:2+5+2/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8425000 10125000 i^N-w+a=pau/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
10125000 11325000 N^w-a+pau=d/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32

Pour plus de détails, veuillez consulter les documents HTS: http://hts.sp.nitech.ac.jp

Que puis-je faire avec ça?

Si vous souhaitez fabriquer des systèmes TTS basés sur DNN traditionnels, veuillez consulter les tutoriels sur https://r9y9.github.io/nnmnkwii/latest/. Vous pouvez utiliser des étiquettes d'alignement et de contexte complet pour générer des fonctionnalités linguistiques.

Si vous êtes interstime dans les approches de bout en bout, veuillez consulter https://github.com/espnet/espnet. Les étiquettes sont utilisées au stade de prétraitement pour la recette JSUT (voir aussi https://r9y9.github.io/blog/2017/11/12/jsut_ver1/ pour savoir pourquoi nous avons besoin d'alignements pour les tts finaux).

Happy Speech Hacking!

Code source pour générer des étiquettes

https://github.com/r9y9/segmentation-kit/tree/jsut3

Avis

Les alignements sont susceptibles d'avoir des erreurs car ils ont été générés automatiquement par Julius. Notez qu'ils ne sont pas des étiquettes annotées à la main.

Références

JSUT (Japanese Speech Corpus de Saruwatari-Lab., Université de Tokyo)
HTS
Julius
Openjtalk
日本語 de bout en bout 音声合成に使えるコーパス jsut の前処理 [arxiv: 1711.00354]
pyopenjtalk
nnmnkwii
Informations phonétiques et prosodiques annotées à la main Sarulab-Speech / JSUT de Saruwatari-Lab.

Développer

Informations supplémentaires

Version v0.1.1 Release
Type Code Source AI
Date de mise à jour 2025-08-22
taille 11.82MB
Provenant de Github

Applications connexes

MB Lab

2024-11-12
GitHub sgrebnov/cordova plugin background download

2024-11-05
HIFO LAB Plateforme de stockage de données HIFO

2024-08-28
Laboratoire de poche de numérisation

2024-02-22
Laboratoire de visée

2022-08-10
Rat de laboratoire

2022-08-08

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout