Кантонский/китайский текст на речь на основе статистического параметрического синтеза речи с использованием Merlin Toolkit
На этот проект влияет MTTS
Python: Python3.6
Система: Linux (протестирован на Ubuntu16.04)
sudo apt-get install libatlas3-base
Запустите bash tools/install_mtts.sh
Или скачать файл самостоятельно
Запустить демонстрацию
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (абсолютный путь или относительный путь), тогда вы получите метку HTS, если у вас есть собственная акустическая модель, приготовленная на MonthReal-Forced-Aligner, Add -a your_acoustic_model.zip , в противном случае, этот проект, использующий thChos-Zip.Пример txtfile
A_01 这是一段文本
A_02 这是第二段文本
Пример wav_directory (скорость выборки должна превышать 16 кГц)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
См. Исходный код для получения дополнительной информации, но обратите внимание на файл выравнивания (файл SFS), формат - это endtime phone_type , а не start_time, phone_type (который отличается от данных речи Ocean)
В этом проекте используется Montreal-Forced-Aligner, чтобы сделать принудительное выравнивание, если вы хотите получить лучшее выравнивание, используйте свои данные для обучения модели выравнивания, см. MFA: Algin, используя только датасетс.
Вы можете генерировать метку HTS без просодии. Мы предполагаем, что сегмент слов меньше, чем просодическое слово (которое скорректируется в коде)