O Deepaudio-TTS é uma estrutura para o treinamento de modelos de texto em fala baseados em redes neurais (TTS). Ele inclui ou incluirá arquiteturas populares de rede neural para modelos TTS e vocoder.
Para facilitar o uso de várias funções, como precisão mista, treinamento em vários nó e treinamento de TPU etc., introduzi o Pytorch-Lighting e o Hydra nessa estrutura. Ainda está em desenvolvimento.
$ export PYTHONPATH="${PYTHONPATH}:/dir/of/this/project/"
$ python -m deepaudio.tts.cli.train experiment=tacotron2 datamodule.train_metadata=/you/path/to/train_metadata datamodule.dev_metadata=/you/path/to/dev_metadata
É um projeto pessoal. Portanto, não tenho recursos de GPU suficientes para fazer muitos experimentos. Este projeto ainda está em desenvolvimento. Agradeço qualquer tipo de feedback ou contribuições. Por favor, sinta -se à vontade para fazer um requinte para alguns pequenos problemas, como correções de bugs, resultados da experiência. Se você tiver alguma dúvida, abra um problema.
Peguei emprestado muitos códigos da ESPNET e Paddle Discury