dctts pytorch Download - dctts pytorch Quellcode Download

dctts pytorch

AI-Quellcode

1.0.0

Herunterladen

DC-TTS

Die Pytorch-Implementierung von Papar trainierbarem Text-zu-Sprach-System basierend auf tiefen Faltungsnetzen mit geführter Aufmerksamkeit.

Danke für Kyubyong/DC_TTS, was mir sehr geholfen hat, einige Schwierigkeiten zu überwinden.

Datensatz

Der LJ -Sprachdatensatz. Ein Public -Domain -Sprachdatensatz, der aus 13.100 kurzen Audioclips einer einzelnen weiblichen Sprecherin besteht.

Zug

Ich habe Hyperparameter abgestimmt und ein Modell mit dem LJ -Sprachdatensatz trainiert. Die Hyperparameter sind möglicherweise nicht die besten und unterscheiden sich bei den in Originalpapier verwendeten.

Um ein Modell selbst mit dem LJ -Sprachdatensatz zu trainieren:

Laden Sie den Datensatz herunter und extrahieren Sie in ein Verzeichnis, setzen Sie das Verzeichnis in pkg/hyper.py
Vorverarbeitung laufen
```
 python3 main.py --action preprocess
```
Train text2Mel -Netzwerk können Sie das Gerät so ändern, dass Text2mel in pkg/hyper.py trainiert wird
```
 python3 main.py --action train --module Text2Mel
```
Trainieren Sie das SSRN -Netzwerk. Außerdem ist es möglich, das Trainingsgerät zu ändern
```
 python3 main.py --action train --module SuperRes
```

Proben

Einige synthetisierte Proben sind in der synthesis enthalten. Die nach Sätzen in sentences.txt aufgeführten Sätzen. Das vorgebildete Modell für Text2Mel und Superres (automatisch unter logdir/text2mel/pkg/trained.pkg und logdir/superres/pkg/trained.pkg in der Trainingsphase) wird beim Synthese geladen.

Sie können Muster synthese sentences.txt

 python3 main.py --action synthesis

Aufmerksamkeitsmatrix für den Satz: "Welches kam zuerst ... das Huhn oder das Ei? Hatte das Universum einen Anfang ... und wenn ja, was ist vorher passiert? Woher kam das Universum ... und wohin geht es?"

Vorausgebildeter Modell

Die Proben in der synthesis sind mit 410K -Chargen ausgebildetem Text2Mel und 190k -Chargen ausgebildeten Superres abgetastet.

Das aktuelle Ergebnis ist nicht sehr zufriedenstellend, insbesondere werden einige Vokale übersprungen. Ich hoffe, jemand kann bessere Hyperparameter finden und bessere Modelle trainieren. Bitte sagen Sie mir, ob Sie ein tolles Modell bekommen konnten.

Sie können das aktuelle vorgebildete Modell aus meinem Dropbox herunterladen.