Téléchargez l'ensemble de données ci-dessus et modifiez le chemin d'accès dans config.py. Puis exécutez la commande ci-dessous. 1st Arg: Signal Prepro, 2nd Arg: Metadata (Train / Test Split)
python prepro.py 1 1
DCTTS a deux modèles. Tout d'abord, vous devez former le modèle Text2Mel. Je pense que le pas de 20 km est suffisant (pendant seulement une heure). Mais vous devez former le modèle de plus en plus avec une perte d'attention guidée en décomposition.
python train.py text2mel <gpu_id>
Deuxièmement, entraînez le SSRN avec Gan. Les sorties de SSRN sont de nombreuses données à haute résolution. Donc, la formation SSRN est plus lente que la formation Text2Mel
python gan_train.py <gpu_id>
Après l'entraînement, vous pouvez synthétiser un discours à partir du texte.
python synthesize.py <gpu_id>
Vous pouvez également tester SSRN en utilisant les spectrogrammes MEL de la vérité au sol.
python test.py <gpu_id>
