Inoffizielle Tensorflow -Implementierung der hierarchischen generativen Modellierung für die kontrollierbare Sprachsynthese
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
Der vorherige Baum zeigt, wie der aktuelle Status des Repositorys.
Zuerst müssen Python 3.5 zusammen mit TensorFlow v1.6 installiert sein.
Als nächstes können Sie die Anforderungen installieren:
PIP Installation -r Anforderungen.txt
anders:
PIP3 Install -r -Anforderungen.txt
Dieses Repo wurde auf dem LJSpeech -Datensatz getestet, das fast 24 Stunden mit einer Sprachaufzeichnung der Einzelschauspielerin enthält.
Bevor Sie die folgenden Schritte ausführen, stellen Sie bitte sicher, dass Sie sich im Ordner Tacotron-2 befinden
CD Tacotron-2
Die Vorverarbeitung kann dann verwendet werden::
Python Preprocess.Py
oder
Python3 Precess.Py
Der Datensatz kann mit dem Argument -Dataset -Argument ausgewählt werden. Standard ist ljspeech .
Das Merkmalsvorhersagemodell kann mit:
Python Train.py -Model = 'Tacotron' '
oder
Python3 Train.py -Model = 'Tacotron' '
Für das Spektrogramm -Vorhersagnetzwerk (Tacotron) gibt es drei Arten von Mel -Spektrogrammen -Synthese:
python synthesize.py ---model = 'tacotron' ---mode = 'eval' -Referenz_audio = 'ref_1.wav' '
oder
python3 synthesize.py ---model = 'tacotron' ---mode = 'eval' -referenz_audio = 'ref_1.wav'
Notiz:
eval getestet wurde.Blizzard 2013 voice dataset trainiert wurde, das nicht ganz ausdrucksstark ist, und nur 24 Stunden mit Daten von 24 Stunden.wavenet und WaveRNN integriert.Todo
In Arbeit arbeiten