Téléchargement de StyleSpeech - Téléchargement du code source StyleSpeech

StyleSpeech

Code Source AI

v1.0.2

Télécharger

Stylespeech - Implémentation de Pytorch

Pytorch Implémentation de Meta-StylesPeEEECH: Génération adaptative de texte à la parole multi-haut-parleurs.

Bifurquer

Stylespeech (branche naive )
Meta-stylespeech (branche main )

Start

Dépendances

Vous pouvez installer les dépendances Python avec

 pip3 install -r requirements.txt

Inférence

Vous devez télécharger des modèles pré-entraînés et les mettre dans output/ckpt/LibriTTS_meta_learner/ .

Pour les TTS multi-haut-parleurs anglais, exécutez

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --ref_audio path/to/reference_audio.wav --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Les énoncés générés seront placés en output/result/ . Votre discours synthétisé aura le style de ref_audio .

Inférence par lots

L'inférence par lots est également prise en charge, essayez

 python3 synthesize.py --source preprocessed_data/LibriTTS/val.txt --restore_step 200000 --mode batch -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Pour synthétiser toutes les énoncés dans preprocessed_data/LibriTTS/val.txt . Cela peut être considéré comme une reconstruction des ensembles de données de validation se référant à eux-mêmes pour le style de référence.

Contrôleur

La hauteur / volume / le taux de parole des énoncés synthétisés peut être contrôlé en spécifiant les rapports de pitch / énergie / durée souhaités. Par exemple, on peut augmenter le taux de parole de 20% et diminuer le volume de 20% par

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml --duration_control 0.8 --energy_control 0.8

Notez que la contrôlabilité provient de FastSpeech2 et non un intérêt vital du stylespeech. Veuillez vous référer à Styler [Demo, Code] pour la contrôlabilité de chaque facteur de style.

Entraînement

Ensembles de données

Les ensembles de données pris en charge sont

Libritts: un ensemble de données anglaise multi-haut-parleurs contenant 585 heures de discours par 2456 haut-parleurs.
(sera ajouté plus)

Prétraitement

Courir

 python3 prepare_align.py config/LibriTTS/preprocess.yaml

pour certaines préparatifs.

Pour l'alignement forcé, l'aligneur forcé de Montréal (MFA) est utilisé pour obtenir les alignements entre les énoncés et les séquences de phonèmes. Les alignements pré-extractés pour les ensembles de données sont fournis ici. Vous devez décompresser les fichiers dans preprocessed_data/LibriTTS/TextGrid/ . Alternativement, vous pouvez exécuter l'aligneur par vous-même.

Après cela, exécutez le script de prétraitement par

 python3 preprocess.py config/LibriTTS/preprocess.yaml

Entraînement

Former votre modèle avec

 python3 train.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Comme décrit dans l'article, le script commencera de la pré-formation du modèle naïf jusqu'à des étapes meta_learning_warmup , puis méta-entraîner le modèle pour des étapes supplémentaires via une formation épisodique.

Tensorboard

Utiliser

 tensorboard --logdir output/log/LibriTTS

pour servir Tensorboard sur votre hôte local. Les courbes de perte, les spectrogrammes de MEL synthétisés et les audios sont affichés.

Problèmes de mise en œuvre

Utilisez le taux d'échantillonnage 22050Hz au lieu de 16kHz .
Ajoutez une couche entièrement connectée au début de l'encodeur de style MEL à l'entrée de spectrogramme MEL de 80 à 128 .
La taille du modèle, y compris Meta-Learner, est 28.197M .
Utilisez une taille maximale 16 lots lors de la formation au lieu de 48 ou 20 principalement en raison du manque de capacité de mémoire avec un seul Titan-RTX 24GIB . Cela peut être réalisé par le script suivant pour filtrer les données plus longtemps que max_seq_len :
```
 python3 filelist_filtering.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml
```
Cela générera train_filtered.txt au même emplacement de train.txt .
Étant donné que la taille totale du lot est diminuée, le nombre d'étapes d'entraînement est doublé par rapport au papier d'origine.
Utilisez Hifi-gan au lieu de Melgan pour vocoser.

Citation

 @misc{lee2021stylespeech,
  author = {Lee, Keon},
  title = {StyleSpeech},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/StyleSpeech}}
}

Références

Meta-stylespeech: Génération adaptative de texte vocale adaptative multi-ordres
Une architecture de générateur basée sur le style pour les réseaux adversaires génératifs
Réseaux assortis pour un apprentissage d'un coup
Réseaux prototypiques pour l'apprentissage à quelques coups
Tadam: métrique adaptative dépendante des tâches pour un apprentissage à quelques coups
FastSpeech2 de Ming024

Développer

Informations supplémentaires

Version v1.0.2
Type Code Source AI
Date de mise à jour 2025-08-20
taille 111.54MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout