recommander:
Bienvenue à rejoindre
Mandarin / Texte chinois à la parole basée sur la synthèse de la parole des paramètres statistiques à l'aide de la boîte à outils Merlin
Ce n'est qu'une démo à l'avant de la synthèse de prononciation. Il ne fournit pas de fonctions de régularisation de texte et de prédiction du rythme. Utilisez Pypyin pour convertir du texte en pinyin et utilisez le bégaiement pour participer. La précision de ces deux n'est pas aussi bonne que le niveau commercial.
Pour d'autres projets de synthèse vocale, le portail de bout en bout est une bonne direction, et le naturel est meilleur que celui de Merlin.
Ce n'est qu'une démo de frontend mandarin qui est le manque de certaines parties comme la «normalisation du texte» et la «prédiction de la prosodie», et l'ensemble de téléphones et les questions définissent ce projet d'utilisation n'a pas encore été complètement testé.
Une documentation approximative: un projet de documentation écrite en mandarin
Il n'y a pas de jeu de données de synthèse de la parole de mandarine open source sur Internet, ce proj a utilisé un ensemble de données Thchs30 pour démostrater la synthèse de la parole
MISE À JOUR
Données de synthèse de la parole de mandarin open source de la société de banqueurs de données, données de synthèse de la parole chinoise open source, grâce à la société Biaobei
【Téléchargement des données】 https://weixinxcxdb.oss-cn-beijing.aliyuns.com/gwyinpinku/bznsyp.rar 【Description des données】 http://www.data-baker.com/open_source.httml
Écoutez https://jackiexiao.github.io/mtts/
Python: Python3.6
Système: Linux (testé sur Ubuntu16.04)
pip install jieba pypinyin
sudo apt-get install libatlas3-base
Exécutez bash tools/install_mtts.sh
Ou téléchargez un fichier par vous-même
Demo de course
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (chemin absolu ou chemin relatif) alors vous obtiendrez un étiquette -a your_acoustic_model.zip , si vous avez votre propre modèle acoustique formé par un projet mensuel, utilisez Thchs3Exemple TxtFile
A_01 这是一段文本
A_02 这是第二段文本
Exemple Wav_directory (le taux d'échantillonnage devrait supérieur à 16 kHz)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
sfsfile='example_file/example.sfs')
Voir le code source pour plus d'informations, mais faites attention au fichier d'alignement (fichier SFS), le format est endtime phone_type non start_time, phone_type (qui est différent des données de Speech Ocean)
Ce projet utilise l'aligneur de Montréal-Forced pour effectuer un alignement forcé, si vous souhaitez obtenir un meilleur alignement, utilisez vos données pour former un modèle d'alignement, voir MFA: Algin-Using-Only-the-Dataset
misc/thchs30.zip , le dictionnaire que nous utilisons mandarin_mtts.lexicon. Si vous utilisez un ensemble de données plus grand que THCHS30, vous pouvez obtenir un meilleur alignement.Vous pouvez générer un étiquette HTS sans Mark Prosody. Nous supposons que le segment des mots est plus petit que le mot prosodique (qui est ajusté en code)
"# 0", "# 1", "# 2", "# 3" et "# 4" sont les symboles d'étiquetage de la prosodie.