Ce repo contient du code accompagnant l'article "Intégration de haut-parleurs à grain fin dépendant du contenu pour l'adaptation de haut-parleurs à tirs zéro dans la synthèse de texte vocale", qui est implémentée sur la base de Ming024 / FastSpeech2 (beaucoup merci!).
Mise à jour 2022-06-15: Ce travail a été accepté pour IntereSpeech 2022.
pip3 install -r requirements.txtVeuillez vous référer à Ming024 / FastSpeech2 pour plus de détails.
Par exemple,
python3 prepare_align.py config/AISHELL3/preprocess.yamlTéléchargez ensuite les fichiers TextGrid ou utilisez MFA pour aligner le corpus, et mettez des fichiers TextGrid dans votre [prerocessed_data_path] comme prestrocessed_data / Aishell3 / TextGrid /.
Enfin, exécutez le script de prétraitement
python3 preprocess.py config/AISHELL3/preprocess.yamlEn outre:
Former le modèle
python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml Remarquée: Si vous trouvez que la perte de PHNCL ne semble pas avoir tendance ou n'est pas perceptible, essayez d'ajuster manuellement le symbole des dicts dans le texte / symbole.py (contient uniquement des phonèmes pertinents) pour améliorer le fonctionnement de la classification des phonèmes, ce qui peut résoudre le problème.
(Facultatif) Utiliser Tensorboard
tensorboard --logdir output/log/AISHELL3Pour lot
python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml Pour célibataire
# For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室,聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml @misc{zhou2022content,
title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis},
author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
year={2022},
eprint={2204.00990},
archivePrefix={arXiv},
primaryClass={eess.AS}
}