Repo ini berisi kode yang menyertai makalah "Embedding speaker berbutir halus yang bergantung pada konten untuk adaptasi speaker nol-shot dalam sintesis teks-ke-pidato", yang diimplementasikan berdasarkan MING024/FASTSPEECH2 (banyak terima kasih!).
Pembaruan 2022-06-15: Pekerjaan ini telah diterima di Interspeech 2022.
pip3 install -r requirements.txtSilakan merujuk ke MING024/FastSpeech2 untuk lebih jelasnya.
Misalnya,
python3 prepare_align.py config/AISHELL3/preprocess.yamlKemudian unduh file TextGrid atau gunakan MFA untuk menyelaraskan corpus, dan letakkan file TextGrid di [preprocessed_data_path] seperti preprocessed_data/aishell3/textgrid/.
Akhirnya, jalankan skrip preprocessing
python3 preprocess.py config/AISHELL3/preprocess.yamlSelain itu:
Latih modelnya
python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml Tercatat: Jika Anda menemukan kehilangan PHNCLS tampaknya tidak tren ke bawah atau tidak terlihat, cobalah secara manual menyesuaikan diktsus simbol dalam teks/simbol.py (hanya berisi fonem yang relevan) untuk membuat klasifikasi fonem berfungsi lebih baik, dan ini dapat menyelesaikan masalah.
(Opsional) Gunakan Tensorboard
tensorboard --logdir output/log/AISHELL3Untuk batch
python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml Untuk lajang
# For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室,聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml @misc{zhou2022content,
title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis},
author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
year={2022},
eprint={2204.00990},
archivePrefix={arXiv},
primaryClass={eess.AS}
}