Le texte vocal (TTS) a récemment connu de grands progrès dans la synthèse de la parole de haute qualité en raison du développement rapide de systèmes TTS parallèles, mais la production de la parole avec des variations prosodiques naturalistes, des styles parlants et des tons émotionnels reste difficile. De plus, étant donné que la durée et la parole sont générées séparément, les modèles TTS parallèles ont encore des problèmes à trouver les meilleurs alignements monotoniques qui sont cruciaux pour la synthèse de la parole naturaliste. Ici, nous proposons Styletts, un modèle génératif basé sur le style pour les TT parallèles qui peuvent synthétiser un discours diversifié avec une prosodie naturelle à partir d'un énoncé de discours de référence. Avec un nouvel aligneur monotonique transférable (TMA) et des schémas d'augmentation des données invariants de la durée, notre méthode surpasse considérablement les modèles de pointe sur les ensembles de données à un seul et à haut parcours dans les tests subjectifs de la nature de la parole et de la similitude des haut-parleurs. Grâce à l'apprentissage auto-supervisé des styles de parole, notre modèle peut synthétiser la parole avec le même ton prosodique et émotionnel que tout discours de référence donné sans avoir besoin d'étiqueter explicitement ces catégories.
Papier: https://arxiv.org/abs/2107.10394
Échantillons audio: https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.gitFormation en première étape:
python train_first.py --config_path ./Configs/config.ymlFormation en deuxième étape:
python train_second.py --config_path ./Configs/config.yml Vous pouvez exécuter les deux consécutivement et il entraînera à la fois la première et la deuxième étape. Le modèle sera enregistré dans le format "epoch_1st_% 05d.pth" et "epoch_2nd_% 05d.pth". Les points de contrôle et les journaux Tensorboard seront enregistrés sur log_dir .
Le format de liste de données doit être filename.wav|transcription , voir VAL_LIST_LIBRITTS.TXT comme exemple.
Veuillez vous référer à Inference.Ipynb pour plus de détails.
Le Styletts pré-entraîné et le Hifi-Gan sur le corpus LJSpeech en 24 kHz peuvent être téléchargés sur Styletts Link et Hifi-Gan Link.
Le Styletts pré-entraîné et le Hifi-Gan sur Libritts Corpus peuvent être téléchargés sur Styletts Link et Hifi-Gan Link. Vous devez également télécharger Test-Clean à partir de Libritts si vous souhaitez exécuter la démo zéro-shot.
Veuillez décompresser aux Models et Vocoder respectifs et exécuter chaque cellule dans le cahier. Vous devrez également installer Phonizer pour exécuter cette démo d'inférence.
Les modèles d'aligneur de texte pré-entraîné et d'extracteur de hauteur sont fournis dans le dossier Utils . Les modèles d'alignement de texte et d'extracteur de hauteur sont formés avec des mélco-spectrograms prétraités à l'aide de medataset.py.
Vous pouvez modifier le meldataset.py avec votre propre prétraitement de Melspectrogram, mais les modèles pré-entraînés ne fonctionneront plus. Vous devrez former votre propre aligneur de texte et extracteur de pitch avec le nouveau prétraitement.
Le code pour la formation d'un nouveau modèle d'aligneur de texte est disponible ici et pour la formation de nouveaux modèles d'extracteur de hauteur est disponible ici.
Je fournirai plus de réceptions avec le prétraitement existant comme ceux de Hifigan et ESPNET officiel à l'avenir si j'ai plus de temps. Si vous êtes prêt à vous aider, n'hésitez pas à faire des recettes avec ESPNET.