рекомендую:
Добро пожаловать в присоединение
Мандарин/китайский текст к речи на основе статистического синтеза речи параметров с использованием Merlin Toolkit
Это всего лишь демонстрация на передней части синтеза произношения. Он не обеспечивает функций регуляризации текста и прогнозирования ритма. Используйте Pypinyin, чтобы преобразовать текст в пиниин и использовать заикание для причастия. Точность этих двух не так хороша, как коммерческий уровень.
Для других проектов синтеза голоса, портальный сквозной-хорошее направление, и естественность лучше, чем у Мерлина.
Это всего лишь демонстрация мандарина, которая является отсутствием некоторых частей, таких как «нормализация текста» и «Прогнозирование просодии», и набор телефона и набор вопросов, установленный этот проект, который еще не полностью протестирован.
Грубая документация: проект документации, написанная на мандаринском языке
Набор данных синтеза речи с открытым исходным кодом в Интернете нет, этот Proj использовал набор данных THCHS30 для демострата синтеза речи
ОБНОВЛЯТЬ
Данные об синтезе речи с открытым исходным кодом от компании Banker, данные о синтезе речи с открытым исходным кодом, благодаря компании Biobei Company
【Скачать данные】 https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwyinpinku/bznsyp.rar 【Описание данных】 http://www.data-baker.com/open_source.html
Слушайте https://jackiexiao.github.io/mtts/
Python: Python3.6
Система: Linux (протестирован на Ubuntu16.04)
pip install jieba pypinyin
sudo apt-get install libatlas3-base
Запустите bash tools/install_mtts.sh
Или скачать файл самостоятельно
Запустить демонстрацию
bash run_demo.sh
python src/mtts.py txtfile wav_directory_path output_directory_path (абсолютный путь или относительный путь), тогда вы получите метку HTS, если у вас есть собственная акустическая модель, приготовленная на MonthReal-Forced-Aligner, Add -a your_acoustic_model.zip , в противном случае, этот проект, использующий thChos-Zip.Пример txtfile
A_01 这是一段文本
A_02 这是第二段文本
Пример wav_directory (скорость выборки должна превышать 16 кГц)
A_01.wav
A_02.wav
python src/mandarin_frontend.py txtfile output_directory_path from mandarin_frontend import txt2label
result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]
# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
sfsfile='example_file/example.sfs')
См. Исходный код для получения дополнительной информации, но обратите внимание на файл выравнивания (файл SFS), формат - это endtime phone_type , а не start_time, phone_type (который отличается от данных речи Ocean)
В этом проекте используется Montreal-Forced-Aligner, чтобы сделать принудительное выравнивание, если вы хотите получить лучшее выравнивание, используйте свои данные для обучения модели выравнивания, см. MFA: Algin, используя только датасетс.
misc/thchs30.zip , словарь, который мы используем MANDARIN_MTTS.LEXICON. Если вы используете более крупный набор данных, чем THCHS30, вы можете получить лучшее выравнивание.Вы можете генерировать метку HTS без просодии. Мы предполагаем, что сегмент слов меньше, чем просодическое слово (которое скорректируется в коде)
"#0", "#1", "#2", "#3" и "#4" - это символы просодии.