Dies ist eine Tensorflow-Implementierung von Deep Voice 3: 2000-Lautsprecher-Neuraltext-zu-Sprache. Im Moment konzentrieren wir uns nur auf die Einzellautsprechersynthese.
Der LJ -Sprachdatensatz
Laden Sie den LJ -Sprachdatensatz herunter und entpacken Sie. Laufen:
python prepro.py
HINWEIS: Stellen Sie sicher, dass wir den Datensatz in denselben folgenden prepro.py entpackt haben.
Danach bekamen wir drei neue Ordner:
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
Die Trainingsdaten werden von ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags als standardmäßig geladen. Wenn wir den Ladepfad ändern möchten, können wir die Konfiguration in class Hyperparams ändern.
Um das Modell zu trainieren, verwenden wir diesen Befehl:
python train.py
Derzeit können wir kein gutes Ergebnis erzielen. Wir bieten jedoch unser vorgebildetes Modell immer noch an, falls jemand daran interessiert ist.
Vorausgebildeter Modell.
Seine Aufmerksamkeitszahl ist wie folgt:
Alle beim Training generierten Aufmerksamkeitszahlen sind in der vorgebreiteten Modell-Zip-Datei enthalten.
Der größte Teil des Codes wird von Kyubyong/DeepVoice3 entlehnt.