Esta é uma implementação do TensorFlow da Deep Voice 3: 2000-alto-falante texto em fala. Por enquanto, estamos apenas focando na síntese de alto -falante único.
O conjunto de dados de fala do LJ
Download e descompacte o conjunto de dados de discurso LJ. Correr:
python prepro.py
NOTA: Verifique se as abrigamos o conjunto de dados no mesmo foler de prepro.py .
Depois disso, teríamos três novas pastas:
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
Os dados de treinamento são carregados em ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags como padrão. Se quisermos alterar o caminho de carregamento, poderíamos alterar a configuração nos class Hyperparams .
Para treinar o modelo, usamos este comando:
python train.py
Atualmente, não podemos obter um bom resultado. No entanto, ainda fornecemos nosso modelo pré-treinado, caso alguém esteja interessado nele.
Modelo pré-treinado.
Sua figura de atenção é a seguinte:
Todos os números de atenção gerados no treinamento estão incluídos no arquivo zíper do modelo pré-treinado.
A maior parte do código é emprestada de Kyubyong/DeepVoice3.