Descarga de jsut lab - Descargar el código fuente de jsut lab

jsut lab

Código Fuente de IA

v0.1.1 Release

Descargar

jsut-lab

El repositorio proporciona archivos de alineación de estilo HTK/HTS con etiquetas adicionales de contexto completo para JSUT (Corpus de discurso japonés de Saruwatari-Lab., University of Tokio) Corpus (V1.1). Todos los archivos de alineación (.lab) se extrajeron mediante alineación forzada utilizando Julius y OpenJTalk generan contextos completos.

Se espera que los archivos de la etiqueta se utilicen para la resolución del habla; por ejemplo, texto a voz y conversión de voz.

La estructura del directorio es exactamente la misma que la JSUT. Puede poner los archivos de la etiqueta en el directorio de datos JSUT si lo desea:

 tree ~/data/jsut_ver1.1/ -d -L 2
/home/ryuichi/data/jsut_ver1.1/
├── basic5000
│   ├── lab
│   └── wav
├── countersuffix26
│   ├── lab
│   └── wav
├── loanword128
│   ├── lab
│   └── wav
├── onomatopee300
│   ├── lab
│   └── wav
├── precedent130
│   ├── lab
│   └── wav
├── repeat500
│   ├── lab
│   └── wav
├── travel1000
│   ├── lab
│   └── wav
├── utparaphrase512
│   ├── lab
│   └── wav
└── voiceactress100
    ├── lab
    └── wav

Formato de etiqueta

Fields: <begin_time> <end_time> <full-context-label> . El tiempo se encuentran en unidades de 100ns al igual que las etiquetas HTK.

 $ cat basic5000/lab/BASIC5000_0773.lab | head
 
0 2525000 xx^xx-sil+s=a/A:xx+xx+xx/B:xx-xx_xx/C:xx_xx+xx/D:18+xx_xx/E:xx_xx!xx_xx-xx/F:xx_xx#xx_xx@xx_xx|xx_xx/G:6_3%0_xx_xx/H:xx_xx/I:xx-xx@xx+xx&xx-xx|xx+xx/J:1_6/K:3+6-32
2525000 3825000 xx^sil-s+a=N/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
3825000 4825000 sil^s-a+N=g/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
4825000 5825000 s^a-N+g=i/A:-1+2+5/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
5825000 6125000 a^N-g+i=i/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
6125000 7524999 N^g-i+i=N/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
7524999 8125000 g^i-i+N=w/A:1+4+3/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8125000 8425000 i^i-N+w=a/A:2+5+2/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8425000 10125000 i^N-w+a=pau/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
10125000 11325000 N^w-a+pau=d/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32

Para más detalles, consulte los documentos HTS: http://hts.sp.nitech.ac.jp

¿Qué puedo hacer con esto?

Si desea realizar sistemas TTS basados en DNN tradicionales, consulte los tutoriales en https://r9y9.github.io/nnmnkwii/latest/. Puede usar etiquetas de alineación y contexto completo para generar características lingüísticas.

Si está interesado en enfoques de extremo a extremo, eche un vistazo a https://github.com/espnet/espnet. Las etiquetas se usan en la etapa de preprocesamiento para la receta JSUT (ver también https://r9y9.github.io/blog/2017/11/12/jsut_ver1/ para saber por qué necesitamos alineaciones para TTS de extremo a fin).

¡Feliz hackear del discurso!

Código fuente para generar etiquetas

https://github.com/r9y9/segmentation-kit/tree/jsut3

Aviso

Es probable que las alineaciones tengan errores porque Julius los generó automáticamente. Tenga en cuenta que no son etiquetas anotadas a mano.

Referencias

JSUT (Corpus de discurso japonés de Saruwatari-Lab., Universidad de Tokio)
HTS
Julio
OpenJTalk
日本語 de extremo a extremo 音声合成に使えるコーパス JSUT の前処理 [ARXIV: 1711.00354]
pyopenjtalk
nnmnkwii
Sarulab-habla/JSUT-Label Información fonética y prosódica anotada a mano de Saruwatari-Lab.

Expandir

Información adicional

Versión v0.1.1 Release
Tipo Código Fuente de IA
Fecha de actualización 2025-08-22
tamaño 11.82MB
Proviene de Github

Aplicaciones relacionadas

MB Lab

2024-11-12
GitHub sgrebnov/cordova plugin background download

2024-11-05
Plataforma de almacenamiento de datos HIFO LAB HIFO

2024-08-28
Laboratorio de bolsillo de escaneo

2024-02-22
Laboratorio de puntería

2022-08-10
Rata de laboratorio

2022-08-08

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo