Téléchargement editts - Téléchargement du code source editts

editts

Code Source AI

1.0.0

Télécharger

Editts: Édition basée sur les scores pour un texte vocable contrôlable

Mise en œuvre officielle des édits: édition basée sur les scores pour le texte à la disposition contrôlable. Des échantillons audio sont disponibles sur notre page de démonstration.

Abstrait

Nous présentons des édits, une méthodologie d'édition de parole standard basée sur une modélisation générative basée sur les scores pour la synthèse de texte vocal. Les édits permettent une modification granulaire ciblée de l'audio, à la fois en termes de contenu et de hauteur, sans avoir besoin de formation supplémentaire, d'optimisation spécifique à la tâche ou de modifications architecturales de l'épine dorsale du modèle basé sur les scores. Plus précisément, nous appliquons des perturbations grossières mais délibérées dans l'espace précédent gaussien pour induire le comportement souhaité du modèle de diffusion, tout en appliquant des masques et des grains d'adoucissement pour garantir que les modifications itératives ne sont appliquées qu'à la région cible. Les tests d'écoute démontrent que les modifications sont capables de générer de manière fiable un audio à consonance naturelle qui satisfait aux exigences imposées par l'utilisateur.

Citation

Veuillez citer ce travail comme suit.

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

Installation

Créez un environnement virtuel Python ( venv ou conda ) et installez les exigences du package comme spécifié dans requirements.txt .
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```

Construisez le module d'alignement monotone.

 cd model/monotonic_align
python setup.py build_ext --inplace

Pour plus d'informations, reportez-vous au référentiel officiel de Grad-TTS.

Points de contrôle

Les points de contrôle suivants sont déjà inclus dans le cadre de ce référentiel, sous checkpts .

Grad-tts (vieux ver.)
HIFI-AG (lj_ft_t2_v1 ver.)

Décalage de hauteur

Préparez un fichier d'entrée contenant des échantillons pour la génération de la parole. Marquez le segment à modifier via un séparateur de barre vertical, | . Par exemple, un seul échantillon peut ressembler à
Dans | Le visage des obstacles décourageant averti |
Nous fournissons un exemple de fichier d'entrée dans resources/filelists/edit_pitch_example.txt .

Pour exécuter l'inférence, tapez

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

Ajustez CUDA_VISIBLE_DEVICES , le cas échéant.

Remplacement du contenu

Préparez un fichier d'entrée contenant des paires de phrases. CONTRÔLER chaque paire avec # et marquez les pièces à remplacer par un séparateur de barre vertical. Par exemple, une seule paire peut ressembler
Trois autres par la suite | identifié | Oswald d'une photographie. # Trois autres par la suite | Reconnu | Oswald d'une photographie.
Nous fournissons un exemple de fichier d'entrée dans resources/filelists/edit_content_example.txt .

Pour exécuter l'inférence, tapez

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs