Système d'analyse / synthèse de la parole pour TTS et applications connexes.
Ce logiciel est basé sur la méthode décrite dans l'article:
F. Espic, C. Valentini-Botinhao et S. King, «Modélisation directe des spectres de magnitude et de phase pour la synthèse de la parole paramétrique statistique», dans Proc. Interesteech, Stockholm, Suède, août 2017.
@ Auteur: Felipe Espic
Plus d'informations sur http://www.felipeespic.com/magphase/
Il s'agit d'un système d'analyse / synthèse de la forme d'onde de la parole utilisé dans la synthèse de la parole paramétrique statistique (SPSS).
Le module d'analyse extrait quatre flux de caractéristiques décrivant les spectres de magnitude, les spectres de phase et F0. Ces fonctionnalités peuvent être utilisées pour former un modèle de régression (par exemple, DNN, LSTM, Hmm. Etc.) Ainsi, des valeurs prédites peuvent être générées. Le module de synthèse prend ces fonctionnalités à l'entrée pour générer la forme d'onde synthétisée finale.
Points clés:
Voir le fichier de licence pour plus de détails.
pip install numpy scipy soundfile matplotlib
Télécharger Magphase: git clone https://github.com/CSTR-Edinburgh/magphase.git
Télécharger et compiler SPTK et Reaper par:
cd magphase/tools
./download_and_compile_tools.sh
Cela compilera et configurera automatiquement SPTK et Reaper pour vous ... et c'est tout!
Allez simplement dans /demos , lisez les instructions à l'intérieur des scripts de démonstration, qui sont très discriptifs. Ils devraient manquer de la boîte en exécutant python <demo_script> .
Nous recommandons que vous jouez d'abord avec demo_copy_synthesis_lossless.py , puis demo_copy_synthesis_low_dim.py Ils effectuent tous les deux des routines d'analyse / synthèse.
Ensuite, vous pouvez modifier les scripts de démonstration en fonction de vos besoins.
Remarque: N'oubliez pas d'exécuter les scripts de leurs emplacements.
Nous fournissons deux démos distribuées avec la distribution officielle du Merlin. Ceux-ci montrent des exemples de Merlin avec l'intégration Magphase:
Texte à dispection: démo SLT_ARCTIC de Merlin (versions de sous-ensembles petites et complètes)
Conversion vocale: démo de conversion vocale de Merlin (à peu près testé)
Nous avons besoin d'aide pour améliorer ce logiciel. Vous pouvez collaborer par:
Construire des voix TTS utilisant Merlin et Magphase et comparer avec d'autres vocodeurs, par exemple, le monde. Ensuite, veuillez nous dire vos résultats. Nous n'avons testé Magphase qu'avec quelques voix et il est nécessaire de couvrir une plage plus large. Nous avons récemment corrigé certains bogues qui sont sortis grâce aux personnes qui rapportent leurs résultats à l'aide de nouvelles données.
Implémentation de la prise en charge de la fréquence d'images variables native dans Merlin. Magphase travaille à la fréquence d'images variables (pas synchrone).