TTS Tacotron Pytorch Download - TTS Tacotron Pytorch Quellcode Download

TTS Tacotron Pytorch

AI-Quellcode

1.0.0

Herunterladen

Tacotron

Eine Pytorch -Implementierung des Tacotron -Sprachsynthese -Netzwerks von Google.

Diese Implementierung umfasst auch die ortsempfindliche Aufmerksamkeit und die Stop-Token -Merkmale von Tacotron 2.

Darüber hinaus wird das Modell auf dem LJ -Sprachdatensatz mit geschultem Modell ausgebildet.

Audioproben finden Sie im Ergebnisverzeichnis.

Einführung

Diese Implementierung basiert auf R9Y9/tacotron_pytorch. Die Hauptunterschiede sind:

Fügt ortsempfindliche Aufmerksamkeit und das Stopp-Token aus dem Papier Tacotron 2 hinzu. Dies kann die Zeit und Daten, die für die Ausbildung eines Modells erforderlich sind, erheblich verringern.
Entfernen Sie alle Tensorflow -Abhängigkeiten, die R9Y9 verwendet, jetzt läuft es nur auf Pytorch und Pytorch .
Fügt ein Verlustmodul hinzu und verwendete L2 (MSE) -Antaste anstelle eines L1 -Verlusts.
Fügt ein Datenladermodul hinzu.
Integrieren Sie das LJ -Sprachdatenvorverarbeitungsskript von Keithito.
Code Factoring und Optimierung für einfacheres Debuggen und Erweiterung der Furure.

Darüber hinaus sind einige Unterschiede zum ursprünglichen Tacotronpapier::

Vorhersage r = 5 nicht überlappende aufeinanderfolgende Out-Put-Frames bei jedem Decoder-Schritt anstelle von r = 2.
Füttern Sie alle R -Frames mit dem nächsten Decoder -Eingangsschritt anstelle des letzten Rahmens von R -Frames.
Skalieren Sie den Verlust an vorhergesagten linearen Spektrogrammen so, dass niedrigere Frequenzen, die der menschlichen Sprache (0 bis 3000 Hz) entsprechen, mehr wiegen.
Verwendete keine Verlustmaske im Sequenz-zu-Sequenz-Lernen, wodurch das Modell erfährt, wann die Synthese gestoppt werden soll.
Deaktivieren Sie die Verzerrung für die 1-dimensionale Faltungseinheit in den CBHG-Modulehas. Diese Implementierungsdetails helfen der Konvergenz des Modells.

Audioqualität ist noch nicht so gut wie die Demo von Google, aber hoffentlich wird sie sich irgendwann verbessern. Pull -Anfragen sind willkommen!

Schneller Start

Aufstellen

Klon dieses Repo: git clone [email protected]:andi611/Tacotron-Pytorch.git
CD in dieses Repo: cd Tacotron-Pytorch

Abhängigkeiten installieren

Installieren Sie Python 3.
Installieren Sie die neueste Version von Pytorch gemäß Ihrer Plattform. Um eine bessere Leistung zu erzielen, installieren Sie bei der GPU -Unterstützung (CUDA), wenn sie lebensfähig sind. Dieser Code funktioniert mit Pytorch 0.4 und später.
Anforderungen installieren:
```
 pip3 install -r requirements.txt
```
WARNUNG: Sie müssen den Torch je nach Plattform installieren. Hier finden Sie die Pytorch -Version, die bei der Erstellung verwendet wurde. Dieses Projekt wurde erstellt.

Ausbildung

Laden Sie den LJ -Sprachdatensatz herunter.
- LJ Rede
Sie können andere Datensätze verwenden, wenn Sie sie in das richtige Format konvertieren. Weitere Informationen finden Sie unter Training_data.md.
Packen Sie den Datensatz in ~/Tacotron-Pytorch/data aus
Nach dem Auspacken sollte Ihr Baum für die LJ -Rede so aussehen:
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1
			 |- metadata.csv
			 |- wavs
```

Preprozess des LJ-Sprachdatensatzes und erstellen Sie mit Precess.py modellbereitete Meta-Dateien:

 python3 preprocess.py --mode make

Nach der Vorverarbeitung sieht Ihr Baum wie folgt aus:

 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1 (The downloaded dataset)
			 |- metadata.csv
			 |- wavs
		 |- meta (generate by preprocessing)
			 |- meta_text.txt 
			 |- meta_mel_xxxxx.npy ...
			 |- meta_spec_xxxxx.npy ...
		 |- test_transcripts.txt (provided)

Trainieren Sie ein Modell mit Train.py
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/
```
Stellen Sie das Training von einem vorherigen Kontrollpunkt aus:
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
```
Einstellbare Hyperparameter finden Sie in config.py.
Sie können diese Parameter anpassen und einstellen, indem Sie die Datei bearbeiten. Die Standard -Hyperparameter werden für die LJ -Sprache empfohlen.
Überwachen Sie mit Tensorboard (optional)
```
 tensorboard --logdir 'path to log_dir'
```
Der Trainer entfällt standardmäßig Audio und Ausrichtungen alle 2000 Schritte. Sie finden diese in tacotron/ckpt/ .

Test: Verwenden eines vorgebliebenen Modells und Tests.py

Führen Sie die Testumgebung mit interaktivem Modus aus :

 python3 test.py --interactive --plot --model_name 500000

Führen Sie den Testalgorithmus auf einem Satz von Transkripten aus (Ergebnisse finden Sie im Ergebnis von 500000):
```
 python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
```

Anerkennung

Credits an Ryuichi Yamamoto für eine wunderbare Pytorch -Implementierung von Tacotron, auf der diese Arbeit hauptsächlich basiert. Diese Arbeit ist auch von der Tacotron 2 -Pytorch -Implementierung von Nvidia inspiriert.