Texte cantonais / chinois à la parole basée sur la synthèse de la parole paramétrique statistique à l'aide de la boîte à outils Merlin
Ce projet est influencé par MTTS
Python: Python3.6
Système: Linux (testé sur Ubuntu16.04)
sudo apt-get install libatlas3-base
Exécutez bash tools/install_mtts.sh
Ou téléchargez un fichier par vous-même
Demo de course
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (chemin absolu ou chemin relatif) alors vous obtiendrez un étiquette -a your_acoustic_model.zip , si vous avez votre propre modèle acoustique formé par un projet mensuel, utilisez Thchs3Exemple TxtFile
A_01 这是一段文本
A_02 这是第二段文本
Exemple Wav_directory (le taux d'échantillonnage devrait supérieur à 16 kHz)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
Voir le code source pour plus d'informations, mais faites attention au fichier d'alignement (fichier SFS), le format est endtime phone_type non start_time, phone_type (qui est différent des données de Speech Ocean)
Ce projet utilise l'aligneur de Montréal-Forced pour effectuer un alignement forcé, si vous souhaitez obtenir un meilleur alignement, utilisez vos données pour former un modèle d'alignement, voir MFA: Algin-Using-Only-the-Dataset
Vous pouvez générer un étiquette HTS sans Mark Prosody. Nous supposons que le segment des mots est plus petit que le mot prosodique (qui est ajusté en code)