FastPitchFormant Download - FastPitchFormant Code Téléchargement

FastPitchFormant

Code Source AI

v1.0.0

Télécharger

FastPitchformant - implémentation Pytorch

Implémentation Pytorch de FastPitchformant: modélisation décomposée basée sur les filtres source pour la synthèse de la parole.

Start

Dépendances

Vous pouvez installer les dépendances Python avec

 pip3 install -r requirements.txt

Inférence

Vous devez télécharger les modèles pré-entraînés et les mettre en output/ckpt/LJSpeech/ .

Pour les TTS à haut-parleur anglais, courez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 600000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Les énoncés générés seront placés en output/result/ .

Inférence par lots

L'inférence par lots est également prise en charge, essayez

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step 600000 --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Pour synthétiser toutes les énoncés dans preprocessed_data/LJSpeech/val.txt

Contrôleur

Le taux de hauteur / parlante des énoncés synthétisés peut être contrôlé en spécifiant les ratios de pitch / énergie / durée souhaités. Par exemple, on peut augmenter le taux de parole de 20% et diminuer le terrain de 20% par

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 600000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml --duration_control 0.8 --pitch_control 0.8

Entraînement

Ensembles de données

Les ensembles de données pris en charge sont

LJSPEECH: Un ensemble de données anglais à un seul haut-parleur se compose de 13100 clips audio courts d'une conférencière de lecture féminine de 7 livres non-fiction, environ 24 heures au total.

Prétraitement

Tout d'abord, courez

 python3 prepare_align.py config/LJSpeech/preprocess.yaml

pour certaines préparatifs.

Comme décrit dans l'article, l'aligneur forcé de Montréal (MFA) est utilisé pour obtenir les alignements entre les énoncés et les séquences de phonèmes. Les alignements pour les ensembles de données LJSPEECH sont fournis ici. Vous devez décompresser les fichiers dans preprocessed_data/LJSpeech/TextGrid/ .

Après cela, exécutez le script de prétraitement par

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Alternativement, vous pouvez aligner le corpus par vous-même. Téléchargez le package MFA officiel et exécutez

 ./montreal-forced-aligner/bin/mfa_align raw_data/LJSpeech/ lexicon/librispeech-lexicon.txt english preprocessed_data/LJSpeech

ou

 ./montreal-forced-aligner/bin/mfa_train_and_align raw_data/LJSpeech/ lexicon/librispeech-lexicon.txt preprocessed_data/LJSpeech

Pour aligner le corpus, puis exécutez le script de prétraitement.

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Entraînement

Former votre modèle avec

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Tensorboard

Utiliser

 tensorboard --logdir output/log/LJSpeech

pour servir Tensorboard sur votre hôte local. Les courbes de perte, les spectrogrammes de MEL synthétisés et les audios sont affichés.

Problèmes de mise en œuvre

La mise en œuvre actuelle et le modèle pré-formé utilisent des valeurs de hauteur normalisées. Dans mes expériences, la contrôlabilité de la hauteur n'est pas dynamique avec les décalages de hauteur proposés. Vous pouvez définir normalization sur False dans ./config/LJSpeech/preprocess.yaml lorsque vous avez besoin de voir plus de plage de hauteur comme décrit le papier.
Veuillez noter que le document a formé le modèle jusqu'à 1000K tandis que l'implémentation actuelle fournit un modèle pré-formé 600k.
Utilisez Hifi-gan au lieu de Vocgan pour vocoding.

Citation

 @misc{lee2021fastpitchformant,
  author = {Lee, Keon},
  title = {FastPitchFormant},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/FastPitchFormant}}
}