reformer tts Download - reformer tts Quellcode Download

reformer tts

AI-Quellcode

Initial release - project submission

Herunterladen

Reformer-TTS

Eine Anpassung des Reformers: Der effiziente Transformator für Text-to-Speech-Aufgabe.

Dieses Projekt enthält:

Vorverarbeitungscode zum Erstellen eines Trump -Sprachdatensatzes basierend auf Transkripten von rev.com
Implementierung von Reformer TTS: Eine Anpassung des Reformer
Implementierung von Squeeezewave: Extrem leichte Vocoder für die Sprachsynthese für On-Geräte in modernen Pytorch, ohne Abhängigkeiten von Tacotron2, Wavenet oder Wavenglow
Pytorch Lightning Wrapper für das einfache Training beider Modelle mit einfach zu bedienender Konfigurationsmanagement
CLI für das Ausführen von Training, Inferenz und Datenvorverarbeitung

Projektumfang und aktueller Status

Wir wollten eine wesentlich effizientere Version des hochmodernen Text-zu-Sprache-Modells erstellen, indem wir seine Transformatorarchitektur durch Optimierungen ersetzen, die in der neueren Reformerpapiere vorgeschlagen wurden. Wir werden es verwenden, um eine glaubwürdige Deepfake von Donald Trump zu generieren, die auf einem benutzerdefinierten Datensatz seiner Reden basiert, die speziell für diesen Zweck erstellt wurden.

Leider konnten wir keine Ergebnisse erzielen, die denjenigen aus Transformator -TTS -Papier entsprechen, nachdem wir über 2 Monate mit mehr als 100 Hyperparameter -Kombinationen experimentierten. Wir glauben, dass die Modellgröße hier ein wesentlicher Faktor ist und Transformatoren für TTs zu trainieren, die man wirklich reduzieren muss, um einen langen, stetigen Trainingsprozess (~ 1 Woche Training auf RTX 2080TI) zu ermöglichen.

Außerdem würde der Zugriff auf die ursprüngliche Implementierung von Transformator -TTs sehr helfen.

Obwohl der Reformer unseren Erwartungen nicht entsprach, entspricht die Implementierung von Squeezewave die Leistung des Originals ohne FP16 -Unterstützung.

Wir enthalten auch CLI für das Ausführen von Training und Inferenz (siehe Nutzungsabschnitt ) sowie alle Daten, die für die Reproduktion von Experimenten erforderlich sind (siehe Abschnitt Entwicklungsabschnitt ).

Das Projekt befindet sich unter einem bedeutenden Refactor, diese Version bleibt hier, um die Kompatibilität mit unseren vorherigen Extraktionen zu ermöglichen, und wird in naher Zukunft bewegt .

Zusätzliche Dokumente

Abschlusspräsentation und Folien
Projektjournal
Forschungsdoc

Verwenden des Projekts

Dieses Projekt ist ein normales Python -Paket und kann mit pip installiert werden, solange Sie Python 3.8 oder mehr haben.

Gehen Sie zur Seite "Releases", um die Installationsanweisung für die neueste Version zu finden.

Nach der Installation können Sie verfügbare Befehle sehen, indem Sie ausführen:

python -m reformer_tts.cli --help

Alle Befehle werden beispielsweise mit CLI ausgeführt:

python -m reformer_tts.cli train-vocoder

Die meisten Parameter (insbesondere alle Trainingshyperparameter) werden über ein Argument für --config (das vor dem Befehl, den Sie ausführen möchten), z. B. über das Argument für cli angegeben:

python -m reformer_tts.cli -c /path/to/your/config.yml train-vocoder

Standardwerte finden Sie in reformer_tts.config.Config (und seinen Feldern).

Entwicklungsaufbau

1. Installieren Sie Abhängigkeiten

Verwenden von Conda

Dank der Conda-Forge Community können wir alle Pakete (einschließlich notwendiger Binärdateien wie ffmpeg ) mit einem Befehl installieren.

conda env create -f environment.yml

Verwenden Sie andere Paketmanager

Überprüfen Sie Ihre Umgebung und stellen Sie sicher, dass Sie Python>=3.8 haben:

which python
python --version

Installieren Sie Python -Abhängigkeiten (installieren Sie unser Paket auch im bearbeitbaren Modus):

pip install -r requirements.txt

Stellen Sie sicher, dass Sie ffmpeg>=3.4,<4.0 installiert haben (Installationsanweisungen)
Stellen Sie zum Training sicher, dass Sie CUDA- und GPU -Treiber installieren (Einzelheiten finden Sie unter Anweisungen auf der Pytorch -Website).

2. Konfigurieren Sie Tools

Damit DVC Schreibzugriff auf die Remote erhalten kann, konfigurieren Sie Ihr GCP -Konto (Verwenden von Anmeldeinformationen aus der generierten JSON -Datei):

 export GOOGLE_APPLICATION_CREDENTIALS=/path/to/your/service-account-credentials.json

HINWEIS: Wenn Sie nur Lesen von Acces (zur Reproduktion) benötigen, müssen Sie Schritt 1 nicht ausführen

Erhalten Sie alle Daten - dieser Schritt muss wiederholt werden:
- Jedes Mal, wenn Sie nach einer Pause arbeiten
- Nach jedem Git ziehen
- Nach dem Auschecken eines weiteren Git -Zweigs

dvc pull

3. Überprüfen Sie, ob das Setup korrekt ist

Dazu können Sie Projekttests ausführen:

python -m pytest --pyargs reformer_tts

Alle Tests sollten auf CPU und GPU funktionieren und können bis zu einer Minute dauern.

Denken Sie daran, --pyargs reformer_tts an PyTest zu übergeben, ansonsten werden Datenverzeichnisse nach Tests durchsucht

Setup -Details

Verwenden Sie den gewünschten Paketmanager, den Sie möchten
Verwenden Sie Python>=3.8
Alle Python -Abhängigkeiten werden sowohl in requirements.txt als auch in environment.yml erfolgen
Ein zentraler Einstiegspunkt für Ausführung von Aufgaben: reformer_tts/cli.py , Run python reformer_tts/cli.py --help für detaillierte Referenz

Konfiguration

Die Konfiguration ist in Dataclass -Strukturen organisiert:

Jedes Projekt -Submodule verfügt über eine eigene Konfigurationsdatei namens config.py , wobei die Parameter und Standardwerte definiert sind - beispielsweise sind Datensatzkonfigurationsparameter in reformer_tts.dataset.config angegeben
Die reformer_tts.config.Config -Klasse enthält alle Konfigurationseinstellungen von Submodules
Die tatsächlichen Werte von Konfigurationsparametern werden aus Konfigurationsdateien im YAML -Format geladen. Best Practice besteht darin, nur Standardeinstellungen in den YAML -Dateien zu überschreiben

Auf diese Weise werden die Standardwerte in der Nähe des Ortes festgelegt, an dem sie verwendet werden, und jeder Konfigurationswert kann überall überschrieben werden, wo immer Sie möchten

Um die Laufzeitkonfiguration zu ändern

Generieren Sie die Konfiguration automatisch mit Standardwerten mit dem Befehl python reformer_tts/cli.py save-config -o config/custom.yml oder kopieren Sie manuell eine der vorhandenen Konfigurationsdateien in config/ Verzeichnis manuell
Entfernen Sie Standardeinstellungen, die Sie nicht von der generierten Konfigurationsdatei ändern möchten
Ändern Sie die Werte, die Sie in der generierten Konfigurationsdatei ändern möchten
Geben Sie Ihre Konfiguration an, wenn Sie CLI -Skripte mit der Option -c ausführen, dh python reformer_tts/cli.py -c config/custom.yml [COMMAND]

Fügen Sie Konfiguration für ein neues Modul hinzu

config.py in Ihrem Modul erstellen
Definieren Sie eine DataClass mit allen erforderlichen Konfigurationsparametern in der neuen Datei:
- Stellen Sie sicher, dass Ihre Klasse Parameterwerte für andere Konfigurationsdateien nicht definiert (dh die Anzahl der Spektrogrammkanäle nur einmal - an derselben Stelle sowohl für dataset als auch für squeezewave -Module).
- Stellen Sie sicher, dass Ihre Klasse Standardwerte für alle Parameter enthält
Fügen Sie das Feld für Ihre DataClass in der Hauptkonfiguration reformer_tts.config hinzu

Datenabhängigkeiten

Wir verwenden DVC zum Definieren von Datenverarbeitungspipelines. Remote wird im Google Cloud -Speicher eingerichtet, um Details auszuführen, die dvc config list ausführen.

Setup zum Ausführen von Jobs auf Entropy Cluster

Knoten für das Laufen vorbereitet:

Asusgpu3
Asusgpu4
Asusgpu1
Arnold
Sylvester

Laufwerk auf dem Knoten mit Homedir

Klon Repo zu deinem Homedir
Stellen Sie sicher, dass der Datensatzpfad in /scidatalg konfiguriert ist
Setup -Befehl zum Aufrufen von Dateien von Ihrem Homedir anrufen
Verpflichten Sie Ihre Änderungen
Führen Sie das Sbatch -Skript aus

Ausführen von Training auf einem bestimmten Knoten ohne Homedir

Vor dem Laufen:

Wählen Sie den Knoten von bereits vorbereiteten oder vorbereiteten neuen mit den Anweisungen unten mit Anweisungen
Kopieren Sie das Repository in Ihr Zuhause
Stellen Sie sicher

Training durchführen:

Bereiten Sie die Trainingskonfiguration vor und schieben Sie sie in das Remote -Repository
Melden Sie sich bei der Interactive Session srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash bei einem ausgewählten Knoten an.
Goto /scidatalg/reformer-tts/reformer-tts/ Stellen Sie sicher, dass das Repository gezogen wird und an der richtigen Filiale
Melden Sie sich zurück, um den Anmeldknoten anzumelden
Kopieren und ändern Sie jobs/train_entropy.sbatch - Füllen Sie den Befehl des Knotennamens und des Trainings aus
Führen Sie sbatch your/job/script/location.sbatch

Pro Tipp watch -n 1 squeue -u your_username zu sehen tail -f file.log wenn less --follow-name +F file.log Job bereits pro Tip2 ausgeführt wird

Ziehen Sie von DVC

Um von DVC zu ziehen, verwenden Sie jobs/entropy_dvc_pull.sbatch .

Kopieren Sie diese Datei
Füllen Sie den Knotennamen
Passen Sie den Befehl DVC ein
Arbeiten Sie den Job mit Sbatch aus

Neue Knotenvorbereitung

Da /Scidatasm -Verzeichnis nicht synchronisiert wird, während wir trainieren möchten, müssen wir das Training auf jedem Knoten von Hand separat einrichten. Um Env auf einem neuen Knoten einzurichten, folgen Sie folgenden Angaben:

Hinweis : Nur Knoten mit /scidatalg werden von diesen Skripten unterstützt. Diese Knoten sind: Asusgpu4, Asusgpu3, Asusgpu2, Asusgpu1, Arnold, Sylvester

Melden Sie sich bei der interaktiven Sitzung mit der interaktiven Sitzung an srun --qos=gsn --partition=common --nodelist=<name_of_chosen_node> --pty /bin/bash
Kopieren Sie Google API-Anmeldeinformationen auf ${HOME}/gcp-cred.json (mit Ihrem Lieblings-Editor)
Kopieren Sie den Inhalt von scripts/setup_entropy_node.sh in eine neue Datei in Home DIR (erneut mit dem Editor).
Kopiertes Skript ausführen

Expandieren

Zusätzliche Informationen