Mise en œuvre officielle des édits: édition basée sur les scores pour le texte à la disposition contrôlable. Des échantillons audio sont disponibles sur notre page de démonstration.
Nous présentons des édits, une méthodologie d'édition de parole standard basée sur une modélisation générative basée sur les scores pour la synthèse de texte vocal. Les édits permettent une modification granulaire ciblée de l'audio, à la fois en termes de contenu et de hauteur, sans avoir besoin de formation supplémentaire, d'optimisation spécifique à la tâche ou de modifications architecturales de l'épine dorsale du modèle basé sur les scores. Plus précisément, nous appliquons des perturbations grossières mais délibérées dans l'espace précédent gaussien pour induire le comportement souhaité du modèle de diffusion, tout en appliquant des masques et des grains d'adoucissement pour garantir que les modifications itératives ne sont appliquées qu'à la région cible. Les tests d'écoute démontrent que les modifications sont capables de générer de manière fiable un audio à consonance naturelle qui satisfait aux exigences imposées par l'utilisateur.
Veuillez citer ce travail comme suit.
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} Créez un environnement virtuel Python ( venv ou conda ) et installez les exigences du package comme spécifié dans requirements.txt .
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txtConstruisez le module d'alignement monotone.
cd model/monotonic_align
python setup.py build_ext --inplacePour plus d'informations, reportez-vous au référentiel officiel de Grad-TTS.
Les points de contrôle suivants sont déjà inclus dans le cadre de ce référentiel, sous checkpts .
Préparez un fichier d'entrée contenant des échantillons pour la génération de la parole. Marquez le segment à modifier via un séparateur de barre vertical, | . Par exemple, un seul échantillon peut ressembler à
Dans | Le visage des obstacles décourageant averti |
Nous fournissons un exemple de fichier d'entrée dans resources/filelists/edit_pitch_example.txt .
Pour exécuter l'inférence, tapez
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs Ajustez CUDA_VISIBLE_DEVICES , le cas échéant.
Préparez un fichier d'entrée contenant des paires de phrases. CONTRÔLER chaque paire avec # et marquez les pièces à remplacer par un séparateur de barre vertical. Par exemple, une seule paire peut ressembler
Trois autres par la suite | identifié | Oswald d'une photographie. # Trois autres par la suite | Reconnu | Oswald d'une photographie.
Nous fournissons un exemple de fichier d'entrée dans resources/filelists/edit_content_example.txt .
Pour exécuter l'inférence, tapez
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavsLibéré sous la licence publique générale GNU modifiée.