Este repositorio contiene el código que acompaña al documento "Incrustación de altavoces de grano fino dependiente del contenido para la adaptación del altavoz de disparo cero en la síntesis de texto a voz", que se implementa en base a Ming024/FastSpeech2 (¡muchas gracias!).
Actualización 2022-06-15: Este trabajo ha sido aceptado para interponerse 2022.
pip3 install -r requirements.txtConsulte Ming024/FastSpeech2 para obtener más detalles.
Por ejemplo,
python3 prepare_align.py config/AISHELL3/preprocess.yamlLuego descargue los archivos TextGrid o use MFA para alinear el Corpus, y coloque los archivos TextGrid en su [Preproced_Data_Path] como Preprocessed_Data/Aishell3/TextGrid/.
Finalmente, ejecute el script de preprocesamiento
python3 preprocess.py config/AISHELL3/preprocess.yamlAdemás:
Entrenar el modelo
python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml Observado: si encuentra que la pérdida de PHNCLS no parece estar en tendencia hacia abajo o no es notable, intente ajustar manualmente el símbolo dicts en texto/símbolos.py (solo contiene fonemas relevantes) para que la clasificación de fonemas funcione mejor, y esto puede resolver el problema.
(Opcional) Use TensorBoard
tensorboard --logdir output/log/AISHELL3Para un lote
python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml Para soltero
# For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室,聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml @misc{zhou2022content,
title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis},
author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
year={2022},
eprint={2204.00990},
archivePrefix={arXiv},
primaryClass={eess.AS}
}