gmvae_tacotron DOWNLOAD - gmvae_tacotron Quellcode Download

gmvae_tacotron

AI-Quellcode

1.0.0

Herunterladen

GMVAE TACOTRON-2:

Inoffizielle Tensorflow -Implementierung der hierarchischen generativen Modellierung für die kontrollierbare Sprachsynthese

Repository -Struktur:

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

Der vorherige Baum zeigt, wie der aktuelle Status des Repositorys.

Schritt (0) : Holen Sie sich Ihren Datensatz, hier habe ich die Beispiele für ljspeech festgelegt.
Schritt (1) : Vorverarbeitet Ihre Daten. Dadurch erhalten Sie den Ordner "Training_Data" .
Schritt (2) : Trainieren Sie Ihr Tacotron -Modell. Ergibt den Protokoll-Tacotron- Ordner.
Schritt (3) : Synthese/bewerten Sie das Tacotron -Modell. Gibt den Ordner Tacotron_output .

Anforderungen

Zuerst müssen Python 3.5 zusammen mit TensorFlow v1.6 installiert sein.

Als nächstes können Sie die Anforderungen installieren:

PIP Installation -r Anforderungen.txt

anders:

PIP3 Install -r -Anforderungen.txt

Datensatz:

Dieses Repo wurde auf dem LJSpeech -Datensatz getestet, das fast 24 Stunden mit einer Sprachaufzeichnung der Einzelschauspielerin enthält.

Vorverarbeitung

Bevor Sie die folgenden Schritte ausführen, stellen Sie bitte sicher, dass Sie sich im Ordner Tacotron-2 befinden

CD Tacotron-2

Die Vorverarbeitung kann dann verwendet werden::

Python Preprocess.Py

oder

Python3 Precess.Py

Der Datensatz kann mit dem Argument -Dataset -Argument ausgewählt werden. Standard ist ljspeech .

Ausbildung:

Das Merkmalsvorhersagemodell kann mit:

Python Train.py -Model = 'Tacotron' '

oder

Python3 Train.py -Model = 'Tacotron' '

Synthese

Für das Spektrogramm -Vorhersagnetzwerk (Tacotron) gibt es drei Arten von Mel -Spektrogrammen -Synthese:

Bewertung (Synthese zu benutzerdefinierten Sätzen). Dies ist, was wir normalerweise verwenden werden, nachdem wir ein volles Ende -zu -End -Modell haben werden.

python synthesize.py ---model = 'tacotron' ---mode = 'eval' -Referenz_audio = 'ref_1.wav' '

oder

python3 synthesize.py ---model = 'tacotron' ---mode = 'eval' -referenz_audio = 'ref_1.wav'

Notiz:

Diese Implementierung wurde nicht vollständig auf alle Szenarien getestet, sondern mit Referenz -Audioarbeit.
Obwohl es nur auf Synthese ohne GTA und mit dem eval getestet wurde.
Nach dem Training von 250k Schritt mit 32 Chargengröße auf LJSpeech hat KL -Fehler in der Nähe von Null gesetzt (um 0,001), die immer noch keinen guten Stiltransfer und -steuerung erhalten, möglicherweise weil dieses Modell, das auf Blizzard 2013 voice dataset trainiert wurde, das nicht ganz ausdrucksstark ist, und nur 24 Stunden mit Daten von 24 Stunden.
Bei meinen Tests habe ich bisher keine guten Ergebnisse auf der Style Transfer -Seite erzielt, um eine weitere Optimierung erforderlich zu sein. Diese Implementierung ist leicht in wavenet und WaveRNN integriert.
Fühlen Sie sich frei, einige Änderungen vorzuschlagen oder PR noch besser zu erhöhen.