repo นี้มีรหัสที่มาพร้อมกับกระดาษ "ลำโพงที่ขึ้นอยู่กับเนื้อหาอย่างละเอียดฝังอยู่สำหรับการปรับตัวลำโพงแบบไม่มีการยิงแบบ shot ในการสังเคราะห์ข้อความกับคำพูด" ซึ่งดำเนินการตาม Ming024/fastspeech2 (ขอบคุณมาก!)
การอัปเดต 2022-06-15: งานนี้ได้รับการยอมรับจาก Interspeech 2022
pip3 install -r requirements.txtโปรดดูที่ Ming024/FastSpeech2 สำหรับรายละเอียดเพิ่มเติม
ตัวอย่างเช่น,
python3 prepare_align.py config/AISHELL3/preprocess.yamlจากนั้นดาวน์โหลดไฟล์ textGrid หรือใช้ MFA เพื่อจัดเรียงคลังข้อมูลและใส่ไฟล์ textGrid ใน [preprocessed_data_path] เช่น preprocessed_data/aishell3/textgrid/
ในที่สุดเรียกใช้สคริปต์การประมวลผลล่วงหน้า
python3 preprocess.py config/AISHELL3/preprocess.yamlนอกจากนี้:
ฝึกอบรมแบบจำลอง
python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml ที่ระบุไว้: หากคุณพบว่าการสูญเสีย PHNCLS ดูเหมือนจะไม่ได้รับความนิยมหรือไม่เห็นได้ชัดเจนลองปรับเปลี่ยนสัญลักษณ์ dicts ด้วยตนเองในข้อความ/สัญลักษณ์ py (มีเพียงหน่วยเสียงที่เกี่ยวข้อง) เพื่อให้การจำแนกฟอนิมทำงานได้ดีขึ้นและสิ่งนี้อาจแก้ปัญหาได้
(ไม่บังคับ) ใช้ Tensorboard
tensorboard --logdir output/log/AISHELL3สำหรับแบทช์
python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml สำหรับโสด
# For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室,聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml @misc{zhou2022content,
title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis},
author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
year={2022},
eprint={2204.00990},
archivePrefix={arXiv},
primaryClass={eess.AS}
}