dctts pytorch Download - dctts pytorch Download de código fonte

dctts pytorch

Código-Fonte de IA

1.0.0

Baixar

Dc-tts

A implementação do Pytorch do sistema de texto em fala com eficientemente treinável com base em redes convolucionais profundas com atenção guiada.

Obrigado pelo Kyubyong/dc_tts, o que me ajudou muito a superar algumas dificuldades.

Conjunto de dados

O conjunto de dados de discurso LJ. Um conjunto de dados de fala de domínio público, composto por 13.100 clipes de áudio curtos de uma única falante feminina.

Trem

Eu sintonizei parâmetros hiper e treinei um modelo com o conjunto de dados de fala LJ. Os parâmetros hiper podem não ser os melhores e são um pouco diferentes dos usados no papel original.

Para treinar um modelo sozinho com o conjunto de dados de discurso de LJ:

Faça o download do conjunto de dados e extraia um diretório, defina o diretório em pkg/hyper.py
Execute pré -processamento
```
 python3 main.py --action preprocess
```
Trein Text2mel Network, você pode alterar o dispositivo para treinar Text2mel em pkg/hyper.py
```
 python3 main.py --action train --module Text2Mel
```
Trein SSRN Network, também é possível alterar o dispositivo de treinamento
```
 python3 main.py --action train --module SuperRes
```

Amostras

Algumas amostras sintetizadas estão contidas na synthesis de diretório. As frases conforme estão listadas em sentences.txt . O modelo pré-treinado para text2mel e superres (economizado automaticamente em logdir/text2mel/pkg/trained.pkg e logdir/superres/pkg/trained.pkg na fase de treinamento) será carregado ao sintetizar.

Você pode síntese amostras listadas em sentences.txt com

 python3 main.py --action synthesis

Matriz de atenção para a frase: "Qual veio primeiro ... o frango ou o ovo? O universo teve um começo ... e se sim, o que aconteceu antes disso? De onde o universo veio ... e para onde está indo?"

Modelo pré-treinado

As amostras na synthesis de diretório são amostradas com 410k lotes de texto treinado e lotes de 190K treinaram Superres.

O resultado atual não é muito gratificante, especificamente, algumas vogais são ignoradas. Espero que alguém possa encontrar melhores parâmetros hiper e treinar melhores modelos. Por favor, diga -me se você conseguiu um ótimo modelo.

Você pode baixar o modelo pré-treinado atual do meu Dropbox.