Téléchargement de StyleTTS - Téléchargement du code source StyleTTS

StyleTTS

Code Source AI

1.0.0

Télécharger

Styletts: un modèle génératif basé sur le style pour la synthèse naturelle et diversifiée du texte

Yinghao Aaron Li, Cong Han, Nima Mesgarani

Le texte vocal (TTS) a récemment connu de grands progrès dans la synthèse de la parole de haute qualité en raison du développement rapide de systèmes TTS parallèles, mais la production de la parole avec des variations prosodiques naturalistes, des styles parlants et des tons émotionnels reste difficile. De plus, étant donné que la durée et la parole sont générées séparément, les modèles TTS parallèles ont encore des problèmes à trouver les meilleurs alignements monotoniques qui sont cruciaux pour la synthèse de la parole naturaliste. Ici, nous proposons Styletts, un modèle génératif basé sur le style pour les TT parallèles qui peuvent synthétiser un discours diversifié avec une prosodie naturelle à partir d'un énoncé de discours de référence. Avec un nouvel aligneur monotonique transférable (TMA) et des schémas d'augmentation des données invariants de la durée, notre méthode surpasse considérablement les modèles de pointe sur les ensembles de données à un seul et à haut parcours dans les tests subjectifs de la nature de la parole et de la similitude des haut-parleurs. Grâce à l'apprentissage auto-supervisé des styles de parole, notre modèle peut synthétiser la parole avec le même ton prosodique et émotionnel que tout discours de référence donné sans avoir besoin d'étiqueter explicitement ces catégories.

Papier: https://arxiv.org/abs/2107.10394

Échantillons audio: https://styletts.github.io/

Pré-requis

Python> = 3,7
Cloner ce référentiel:

git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTS

Installez les exigences de Python:

pip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git

Téléchargez et extraire l'ensemble de données LJSpeech, décompressez le dossier de données et échantillonnez les données à 24 kHz. Le vocodeur, l'aligneur de texte et l'extracteur de pitch sont pré-formés sur des données de 24 kHz, mais vous pouvez facilement modifier le prétraitement et les rétracter en utilisant votre propre prétraitement. Je fournirai plus de recettes et de modèles pré-formés plus tard si j'ai le temps. Si vous êtes prêt à aider, n'hésitez pas à travailler sur d'autres méthodes de prétraitement. Pour les Libritts, vous devrez combiner Train-Clean-360 avec Train-Clean-100 et renommer le dossier Train-Clean-460 (voir VAL_LIST_LIBRITTS.TXT comme exemple).

Entraînement

Formation en première étape:

python train_first.py --config_path ./Configs/config.yml

Formation en deuxième étape:

python train_second.py --config_path ./Configs/config.yml

Vous pouvez exécuter les deux consécutivement et il entraînera à la fois la première et la deuxième étape. Le modèle sera enregistré dans le format "epoch_1st_% 05d.pth" et "epoch_2nd_% 05d.pth". Les points de contrôle et les journaux Tensorboard seront enregistrés sur log_dir .

Le format de liste de données doit être filename.wav|transcription , voir VAL_LIST_LIBRITTS.TXT comme exemple.

Inférence

Veuillez vous référer à Inference.Ipynb pour plus de détails.

Le Styletts pré-entraîné et le Hifi-Gan sur le corpus LJSpeech en 24 kHz peuvent être téléchargés sur Styletts Link et Hifi-Gan Link.

Le Styletts pré-entraîné et le Hifi-Gan sur Libritts Corpus peuvent être téléchargés sur Styletts Link et Hifi-Gan Link. Vous devez également télécharger Test-Clean à partir de Libritts si vous souhaitez exécuter la démo zéro-shot.

Veuillez décompresser aux Models et Vocoder respectifs et exécuter chaque cellule dans le cahier. Vous devrez également installer Phonizer pour exécuter cette démo d'inférence.

Prétraitement

Les modèles d'aligneur de texte pré-entraîné et d'extracteur de hauteur sont fournis dans le dossier Utils . Les modèles d'alignement de texte et d'extracteur de hauteur sont formés avec des mélco-spectrograms prétraités à l'aide de medataset.py.

Vous pouvez modifier le meldataset.py avec votre propre prétraitement de Melspectrogram, mais les modèles pré-entraînés ne fonctionneront plus. Vous devrez former votre propre aligneur de texte et extracteur de pitch avec le nouveau prétraitement.

Le code pour la formation d'un nouveau modèle d'aligneur de texte est disponible ici et pour la formation de nouveaux modèles d'extracteur de hauteur est disponible ici.

Je fournirai plus de réceptions avec le prétraitement existant comme ceux de Hifigan et ESPNET officiel à l'avenir si j'ai plus de temps. Si vous êtes prêt à vous aider, n'hésitez pas à faire des recettes avec ESPNET.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-21
taille 111.28MB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout