Nicht-englisch-tacotron-2-Training-Notenbuch
Tacotron 2 Schulungsnotizbuch unterstützt Japanisch, Französisch und Mandarin
Überblick
Dieses Notizbuch soll einen einfacheren Zugang zu Training Tacotron 2 -Modellen in anderen Sprachen als Englisch bieten. Derzeit sind Japaner (Talqu- und Neukalk -Phonetik), Französisch und Mandarin vorbereitet, aber es wird geplant, mehr in die Zukunft wie Deutsch aufzunehmen. Für Japaner wird empfohlen, die Neutalk -Phonetik und das vorbereitete Modell zu verwenden.
Unterstütztes Audio
Das Audio für das Training sollte 16-Bit 22050Hz Mono WAV-Dateien sein. Fügen Sie keine Leerzeichen in Dateinamen ein. Die Dateien sollten nur Alphanumeriker (Halbbreite), Striche und Unterstriche enthalten. Dies bedeutet, dass keine japanischen oder chinesischen Dateinamen oder Diakritika. Audioclips sollten 10 Sekunden oder weniger betragen, um das Lernen zu erleichtern. Basierend auf meinen Tests empfehle ich mindestens 15 Minuten Audio.
Transkriptionen
Die Transkriptionsdatei sollte ein Textdokument mit jeder Zeile mit dem folgenden Format sein: wavs/{name_of_file}.wav|{text} . Verwenden Sie eines der mitgelieferten G2Ps, um die Transkription in den entsprechenden phonetischen Eingang umzuwandeln.
Ausbildung
Ich hoffe, die Schritte im Notizbuch sollten eher selbsterklärend sein. Laden Sie Ihr Audio vor dem Training in den WAVs/ Ordner hoch. Hier sind einige Notizen, die Sie beachten sollten:
- Die Chargengröße sollte idealerweise ein Faktor für die Menge an Wellen sein, die Sie haben. Wenn ich beispielsweise ein Modell mit 15 Wellen trainiere, stelle ich die Chargengröße auf 5.
- Wenn Sie die T4 -GPU auf Colab haben, stellen Sie die Chargengröße nicht mehr als 14 ein.
- Das Ausgabeverzeichnis für das Training sollte in Google Drive sein, falls Sie getrennt werden.
- Während Sie trainieren, werden sich Checkpoints aufbauen. Löschen Sie alte und leere Müll, um Ihren Laufwerksaufbewahrung zur Verfügung zu stellen.
- Beendigen Sie das Training, wenn Sie einen angemessenen Validierungsverlust erreichen. Zum Beispiel ist ich: weniger als 30 Dateien = unter 0,07; 30-100 Dateien = unter 0,09; 150+ Dateien = unter 0,1; mehr als 30 Minuten Daten = unter 0,14
Zuschreibungen
- Talqu phonetisches System von Haruqa (https://booth.pm/ja/items/2755336)
- Japanisches phonetisches System von Neukalk von Neutrogic (https://github.com/neutrogic/neutalk)
- TALQUE PRETRAILE MODEL VON HARUQA (https://github.com/haruqa/tacotron2/releases)
- Neukalk Japanische und Mandarin -vorbereitete Modelle von Neutrogic (https://github.com/neutrogic/neutalk)
- Französisches vorbereitete Modell, das von Mildemelwe erstellt und von Neutrogic (https://github.com/neutrogic) erstellt wurde
- Basierend auf Code aus dem Uberduck Tacotron 2 Trainingsnotiok (https://colab.research.google.com/drive/1wtilmdm9vf7ke79gzkeetbigan6IV3BG?usp=sharing)
- Tacotron 2 Implementierung durch NVIDIA (https://github.com/nvidia/tacotron2)