Robust_Fine_Grained_Prosody_Control Download - Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

Code Source AI

1.0.0

Télécharger

Contrôle de prosodie robuste et à grains fins de la synthèse de la parole de bout en bout (avec une lueur d'ondes)

Mise en œuvre du Pytorch du contrôle de la prosodie robuste et à grain fin de la synthèse de la parole de bout en bout (non officielle)

Cette implémentation utilise l'ensemble de données Libritts.

Notes

Branche Dev : Tacotron2 avec Multippeaker (enceinte de haut-parleur). Les informations sur les conférenciers ne sont consommées que par le module de décodeur et le module d'attention n'en voit aucune (comme l'intention des auteurs).
Branche Text_side : implémentation du modèle de contrôle de la prosodie côté texte.
Le contrôle de la prosodie par la parole et la normalisation de la prosodie ne sont pas mis en œuvre dans la version actuelle, mais vous pouvez simplement les ajouter au-dessus des branches ci-dessus.

Pré-requis

Nvidia gpu + cuda cudnn

Installation

Télécharger et extraire l'ensemble de données Libritts
Clone This Repos: git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
CD dans ce repo: cd Robust_Fine_Grained_Prosody_Control
Initialiser le sous-module: git submodule init; git submodule update
Mise à jour .wav Paths: sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- Alternativement, définissez load_mel_from_disk=True dans hparams.py et mettez à jour les chemins de spectrogramme MEL
Installer Pytorch 1.0
Installer Apex
Installez les exigences Python ou construisez l'image docker
- Installer Python Exigences: pip install -r requirements.txt

Entraînement

python train.py --output_directory=outdir --log_directory=logdir
(Facultatif) tensorboard --logdir=outdir/logdir

Formation en utilisant un modèle pré-formé

(TBD)

Multi-GPU (distribué) et une formation automatique de précision mixte

Non pris en charge dans l'implémentation actuelle.

Inférence

Exemple unique: python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
Multi-échantillons: python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB Lors de l'exécution du spectrogramme de MEL à la synthèse audio, assurez-vous que le tacotron 2 et le décodeur MEL ont été formés sur la même représentation du spectrogramme MEL.

Citation

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}