Download do jsut lab - jsut lab Download do Código

jsut lab

Código-Fonte de IA

v0.1.1 Release

Baixar

JSUT-LAB

O repositório fornece arquivos de alinhamento no estilo HTK/HTS com etiquetas adicionais de contexto completo para JSUT (Corpus japonês de fala de Saruwatari-Lab., Universidade de Tóquio) Corpus (v1.1). Todos os arquivos de alinhamento (.lab) foram extraídos por alinhamento forçado usando Julius e os contextos completos são gerados pelo OpenJTalk.

Espera -se que os arquivos dos rótulos sejam usados para a Speech Reach; Por exemplo, conversão de texto em fala e voz.

A estrutura do diretório é exatamente a mesma que o JSUT. Você pode colocar os arquivos do rótulo no diretório de dados JSUT, se desejar:

 tree ~/data/jsut_ver1.1/ -d -L 2
/home/ryuichi/data/jsut_ver1.1/
├── basic5000
│   ├── lab
│   └── wav
├── countersuffix26
│   ├── lab
│   └── wav
├── loanword128
│   ├── lab
│   └── wav
├── onomatopee300
│   ├── lab
│   └── wav
├── precedent130
│   ├── lab
│   └── wav
├── repeat500
│   ├── lab
│   └── wav
├── travel1000
│   ├── lab
│   └── wav
├── utparaphrase512
│   ├── lab
│   └── wav
└── voiceactress100
    ├── lab
    └── wav

Rótulo formato

CAMPOS: <begin_time> <end_time> <full-context-label> . O tempo está em unidades de 100ns da mesma forma que os rótulos HTK.

 $ cat basic5000/lab/BASIC5000_0773.lab | head
 
0 2525000 xx^xx-sil+s=a/A:xx+xx+xx/B:xx-xx_xx/C:xx_xx+xx/D:18+xx_xx/E:xx_xx!xx_xx-xx/F:xx_xx#xx_xx@xx_xx|xx_xx/G:6_3%0_xx_xx/H:xx_xx/I:xx-xx@xx+xx&xx-xx|xx+xx/J:1_6/K:3+6-32
2525000 3825000 xx^sil-s+a=N/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
3825000 4825000 sil^s-a+N=g/A:-2+1+6/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
4825000 5825000 s^a-N+g=i/A:-1+2+5/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
5825000 6125000 a^N-g+i=i/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
6125000 7524999 N^g-i+i=N/A:0+3+4/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
7524999 8125000 g^i-i+N=w/A:1+4+3/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8125000 8425000 i^i-N+w=a/A:2+5+2/B:xx-xx_xx/C:18_xx+xx/D:24+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
8425000 10125000 i^N-w+a=pau/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32
10125000 11325000 N^w-a+pau=d/A:3+6+1/B:18-xx_xx/C:24_xx+xx/D:07+xx_xx/E:xx_xx!xx_xx-xx/F:6_3#0_xx@1_1|1_6/G:3_1%0_xx_0/H:xx_xx/I:1-6@1+3&1-6|1+32/J:2_10/K:3+6-32

Para detalhes, consulte os documentos HTS: http://hts.sp.nitech.ac.jp

O que posso fazer com isso?

Se você deseja criar sistemas TTS tradicionais baseados em DNN, consulte os tutoriais em https://r9y9.github.io/nnmnkwii/latest/. Você pode usar rótulos de alinhamento e contexto completo para gerar recursos linguísticos.

Se você estiver interessado em abordagens de ponta a ponta, dê uma olhada em https://github.com/espnet/espnet. Os rótulos são usados no estágio de pré-processamento da receita JSUT (consulte também https://r9y9.github.io/blog/2017/11/12/jsut_ver1/ para saber por que precisamos de alinhamentos para o TTS final para o final).

Hacking de fala feliz!

Código -fonte para gerar rótulos

https://github.com/r9y9/segmentation-kit/tree/jsut3

Perceber

É provável que os alinhamentos tenham erros porque foram gerados automaticamente por Julius. Observe que eles não são rótulos de anunciação manual.

Referências

JSUT (Corpo de fala japonesa de Saruwatari-Lab., Universidade de Tóquio)
Hts
Julius
OpenJTalk
日本語 de ponta a ponta 音声合成に使えるコーパス jsut の前処理 [arxiv: 1711.00354]
PyopenjTalk
nnmnkwii
Informações fonéticas e prosodic de Sarulab-fala/JSUT-Label da manual da Saruwatari-Lab.

Expandir

Informações adicionais

Versão v0.1.1 Release
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-22
tamanho 11.82MB
Vindo de Github

Aplicativos Relacionados

MB Lab

2024-11-12
GitHub sgrebnov/cordova plugin background download

2024-11-05
Plataforma de armazenamento de dados HIFO LAB HIFO

2024-08-28
Laboratório de digitalização de bolso

2024-02-22
Laboratório de mira

2022-08-10
Rato de laboratório

2022-08-08

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos