dc_tts Download - dc_tts Quellcode Download

dc_tts

AI-Quellcode

1.0.0

Herunterladen

Eine Tensorflow-Implementierung von DC-TTS: Ein weiteres Text-zu-Sprache-Modell

Ich implementiere ein weiteres Text-zu-Sprache-Modell, DC-TTS, das in effizient trainierbarem Text-zu-Sprache-System auf Basis von tiefen Faltungsnetzwerken mit geführter Aufmerksamkeit eingeführt wurde. Mein Ziel ist es jedoch nicht nur, das Papier zu replizieren. Vielmehr möchte ich Einblicke in verschiedene Klangprojekte erhalten.

Anforderungen

Numpy> = 1.11.1
TensorFlow> = 1.3 (Beachten Sie, dass sich die API von tf.contrib.layers.layer_norm seit 1.3 geändert hat)
Librosa
tqdm
Matplotlib
Scipy

Daten

Ich trainiere englische Modelle und ein koreanisches Modell für vier verschiedene Sprachdatensätze.

1. LJ Sprachdatensatz
2. Hörbücher von Nick Offermans Hörbüchern
3. Hörbuch von Kate Winslets
4. KSS -Datensatz

LJ Sprachdatensatz wird in letzter Zeit häufig als Benchmark -Datensatz in der TTS -Aufgabe verwendet, da es öffentlich verfügbar ist und 24 Stunden angemessener Qualitätsmuster enthält. Nick's und Kates Hörbücher werden zusätzlich verwendet, um festzustellen, ob das Modell auch mit weniger Daten und variablen Sprachproben lernen kann. Sie sind 18 Stunden bzw. 5 Stunden lang. Schließlich ist KSS -Datensatz ein koreanischer Sprachdatensatz für Single -Lautsprecher, der mehr als 12 Stunden dauert.

Ausbildung

Schritt 0. Laden Sie den LJ -Sprachdatensatz herunter oder bereiten Sie Ihre eigenen Daten vor.
Schritt 1. Einstellen Sie die Hyperparameter in hyperparams.py . (Wenn Sie die Vorverarbeitung durchführen möchten, setzen Sie Prepro true`.
Schritt 2. Rennen Sie python train.py 1 für Training Text2Mel. (Wenn Sie Prepro True einstellen, führen Sie Python prepro.py zuerst aus) aus.
Schritt 3. Rennen Sie python train.py 2 für das Training ssrn.

Sie können Schritt 2 und 3 gleichzeitig ausführen, wenn Sie mehr als eine GPU -Karte haben.

Trainingskurven

Aufmerksamkeit Handlung

Probensynthese

Ich generiere Sprachproben, die auf Harvard -Sätzen basieren, wie es das Originalpapier tut. Es ist bereits im Repo enthalten.

Führen Sie synthesize.py aus und überprüfen Sie die Dateien in samples .

Erzeugte Proben

Datensatz	Proben
Lj	50k 200k 310k 800k
Nick	40k 170k 300k 800k
Kate	40k 160k 300k 800k
KSS	400k

Vorbereitete Modell für LJ

Laden Sie dies herunter.

Notizen

Das Papier erwähnte nicht die Normalisierung, aber ohne Normalisierung konnte ich es nicht zum Laufen bringen. Also habe ich die Normalisierung der Schicht hinzugefügt.
Das Papier hat die Lernrate auf 0,001 festgelegt, aber es hat bei mir nicht funktioniert. Also habe ich es verfallen.
Ich habe versucht, Text2Mel und SSRN gleichzeitig auszubilden, aber es hat nicht funktioniert. Ich denke, die Trennung dieser beiden Netzwerke mindert die Schulungslast.
Die Autoren behaupteten, das Modell könne innerhalb eines Tages trainiert werden, aber leider sei das Glück nicht mir. Dies ist jedoch offensichtlich viel Fater als Tacotron, da es nur Faltungsschichten verwendet.
Dank der geführten Aufmerksamkeit sieht die Aufmerksamkeitshandlung fast von Anfang an monoton aus. Ich denke, das scheint das Aligment fest zu halten, so dass es nicht den Überblick verliert.
Das Papier erwähnte keine Ausnahmen. Ich habe sie angewendet, da ich glaube, dass es bei der Regularisierung hilft.
Überprüfen Sie auch andere TTS -Modelle wie Tacotron und Deep Voice 3.

Expandieren

Zusätzliche Informationen