dctts pytorch Télécharger - dctts pytorch CODE Téléchargement du code

dctts pytorch

Code Source AI

1.0.0

Télécharger

DC-TTS

La mise en œuvre pytorch du système de texte à dispection Papar efficacement formable basé sur des réseaux convolutionnels profonds avec une attention guidée.

Merci pour Kyubyong / DC_TTS, ce qui m'a beaucoup aidé à surmonter certaines difficultés.

Ensemble de données

L'ensemble de données de discours LJ. Un ensemble de données de discours de domaine public composé de 13 100 clips audio courts d'une seule conférencière.

Former

J'ai réglé des paramètres hyper et formé un modèle avec l'ensemble de données de la parole LJ. Les paramètres hyper peuvent ne pas être les meilleurs et sont légèrement différents avec ceux utilisés dans le papier d'origine.

Pour former un modèle vous-même avec l'ensemble de données de discours LJ:

Téléchargez l'ensemble de données et extraire dans un répertoire, définissez le répertoire dans pkg/hyper.py
Exécuter le prétraitement
```
 python3 main.py --action preprocess
```
Train Text2Mel Network, vous pouvez modifier l'appareil pour former Text2Mel dans pkg/hyper.py
```
 python3 main.py --action train --module Text2Mel
```
Trains réseau SSRN, il est également possible de modifier le dispositif de formation
```
 python3 main.py --action train --module SuperRes
```

Échantillons

Certains échantillons synthétisés sont contenus dans synthesis du répertoire. Les phrases selon les phrases sont répertoriées en sentences.txt . Le modèle pré-formé pour Text2Mel et Superres (Auto-Saved sur logdir/text2mel/pkg/trained.pkg et logdir/superres/pkg/trained.pkg en phase de formation) sera chargé lors de la synthèse.

Vous pouvez synthèse des échantillons répertoriés dans sentences.txt avec

 python3 main.py --action synthesis

Matrice d'attention pour la phrase: "Qui est venu en premier ... le poulet ou l'œuf? L'univers a-t-il commencé ... et si oui, que s'est-il passé avant? D'où l'univers est-il venu ... et où va-t-il?"

Modèle pré-formé

Les échantillons de synthesis des répertoires sont échantillonnés avec des lots de 410 000 lots Text2Mel et 190k de superres formés.

Le résultat actuel n'est pas très satisfaisant, spécialement, certaines voyelles sont ignorées. J'espère que quelqu'un pourra trouver de meilleurs paramètres hyper et former de meilleurs modèles. Veuillez me dire si vous avez pu obtenir un excellent modèle.

Vous pouvez télécharger le modèle pré-formé actuel à partir de ma Dropbox.