Deepaudio-TTS est un cadre pour la formation des modèles de texte à dispection basés sur le réseau neuronal (TTS). Il inclut ou comprendra des architectures de réseau neuronal populaires pour les modèles TTS et Vocoder.
Pour faciliter l'utilisation de diverses fonctions telles que la précision mixte, la formation multi-nœuds et la formation TPU, etc., j'ai introduit l'éclairage de Pytorch et Hydra dans ce cadre. Il est toujours en développement.
$ export PYTHONPATH="${PYTHONPATH}:/dir/of/this/project/"
$ python -m deepaudio.tts.cli.train experiment=tacotron2 datamodule.train_metadata=/you/path/to/train_metadata datamodule.dev_metadata=/you/path/to/dev_metadata
C'est un projet personnel. Je n'ai donc pas assez de ressources GPU pour faire beaucoup d'expériences. Ce projet est toujours en développement. J'apprécie tout type de rétroaction ou de contributions. N'hésitez pas à faire un requier de traction pour certains petits problèmes tels que les corrections de bugs, les résultats de l'expérience. Si vous avez des questions, veuillez ouvrir un problème.
J'ai emprunté beaucoup de codes à ESPNET et Paddle Speech