Robust_Fine_Grained_Prosody_Control download - Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

AI-Quellcode

1.0.0

Herunterladen

Robuste und feinkörnige Prosodiekontrolle der End-to-End-Sprachsynthese (mit Wellenlow)

Pytorch-Implementierung einer robusten und feinkörnigen Prosodiekontrolle der End-to-End-Sprachsynthese (inoffiziell)

Diese Implementierung verwendet den Libritts -Datensatz.

Notizen

Dev Zweig: Tacotron2 mit Multispeaker (Lautsprechereinbettung). Sprecherinformationen werden nur vom Decodermodul konsumiert, und das Aufmerksamkeitsmodul sieht keine davon (als Absicht der Autoren).
Text_side Branch: Implementierung des Text-Seiten-Prosodie-Steuermodells.
Sprach-Seite-Prosodie-Steuerung und Prosody-Normalisierung werden in der aktuellen Version nicht implementiert, aber Sie können sie einfach oben in den oben genannten Zweigen hinzufügen.

Voraussetzungen

Nvidia gpu + cuda cudnn

Aufstellen

Laden Sie den Libritts -Datensatz herunter und extrahieren Sie
Klonen Sie dieses Repo: git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
CD in dieses Repo: cd Robust_Fine_Grained_Prosody_Control
Submodul initialisieren: git submodule init; git submodule update
Update .wav-Pfade: sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- Alternativ laden Sie load_mel_from_disk=True in hparams.py ein und aktualisieren Sie die Melspektrogrammpfade
Installieren Sie Pytorch 1.0
Apex installieren
Installieren Sie die Python -Anforderungen oder erstellen Sie das Docker -Bild
- Installieren Sie die Python -Anforderungen: pip install -r requirements.txt

Ausbildung

python train.py --output_directory=outdir --log_directory=logdir
(Optional) tensorboard --logdir=outdir/logdir

Training mit einem vorgebildeten Modell

(TBD)

Multi-GPU (verteilt) und automatisches Training mit gemischter Präzision

In der aktuellen Implementierung nicht unterstützt.

Schlussfolgerung

Einzelprobe: python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
Multi -Beispiele: python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB bei der Durchführung von Melspektrogrammen zur Audio-Synthese stellen Sie sicher, dass Tacotron 2 und der MEL-Decoder auf derselben Melspektrogram-Darstellung trainiert wurden.

Zitat

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}