cs224n gpu that talks heruntergeladen wird - cs224n gpu that talks Quellcode heruntergeladen hat

cs224n gpu that talks

AI-Quellcode

1.0.0

Herunterladen

Achtung, ich versuche zu sprechen: End-to-End-Sprachsynthese (CS224N '18)

Implementierung eines Faltungs-SEQ2SEQ-basierten Text-zu-Sprach-Modells basierend auf Tachibana ET. al. (2017). Bei einer Sequenz von Zeichen prognostiziert das Modell eine Sequenz von Spektrogrammrahmen in zwei Stufen (Text2Mel und SSRN).

Wie im Bericht erläutert, können wir mit Text2Mel für 60.000 Schritte, SSRN für 100.000 Schritte, ziemlich anständige Audioqualität erhalten. Dies entspricht ungefähr (6+12) Stunden Training auf einem einzelnen Tesla K80 -GPU im LJ -Sprachdatensatz.

Vorbereitete Modell : [Download] Beispiele : [Basismodell-M4] [unbeaufsichtigtes Dekodierer-M1]

Weitere Informationen finden Sie unter : Posterpapier

Verwendung:

Verzeichnisstruktur

 - runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
    - run1/params.json ...
 - src (implementation code package)
 - sentences (contains test sentences in .txt files)
 
train.py
evaluate.py
synthesize.py

../data (directory containing data in format below)
 - FOLDER
    - train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
    - wavs (folder containing corresponding .wav audio files)

Skriptdateien

Führen Sie jede Datei mit python <script_file>.py -h aus, um die Verwendungsdetails anzuzeigen.

 python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE> 
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)

Notizbücher:

Bewertung : Führen Sie Modellvorhersagen in den gesamten Trainings- und Validierungssätzen für verschiedene gespeicherte Modellkontrollpunkte aus und speichern die Endergebnisse.
Demo : Geben Sie interaktiv Eingangssätze ein und hören Sie sich den generierten Ausgangs -Audio an.

Weiter:

Schulung in verschiedenen Sprachen mit geringerer Datenmenge verfügbarer Datensatz indischer Sprachen
Untersuchung der Verwendung von halbüberwachenden Methoden zur Beschleunigung des Trainings unter Verwendung eines vorgebildeten „Audio-Sprachmodells“ als Initialisierung

Referenzierter externer Code:

(Aus SRC/ INIT .PY) Der Dienstprogrammcode wurde aus den folgenden Quellen verwiesen, jeder andere Code ist der eigene des Autors:

src/data_load.py, dsp_utils.py (mit Modifikationen)
https://www.github.com/kyubyong/dc_tts, (Autor: Kyubyong Park, @kyubyong) https://github.com/r9y9/deepvoice3_pytorch/blob/master/audio.py (Autor: @R9Y9)
src/spsi.py (verwiesen)
https://github.com/lonce/spsi_python (Autor: @lonce)
src/utils.py (verwiesen)
https://github.com/cs230-stanford/cs230-code-examples https://www.github.com/kyubyong/dc_tts https://github.com/tensorflow/tensor/blob/master/tensor2ten/layers/common_attention

Expandieren

Zusätzliche Informationen