Анализ речи/Система синтеза для ТТ и связанных с ними приложений.
Это программное обеспечение основано на методе, описанном в статье:
F. Espic, C. Valentini-Botinhao и S. King, «Прямое моделирование масштабов и фазовых спектров для статистического параметрического синтеза речи», в Proc. Interspeech, Стокгольм, Швеция, август 2017 года.
@ Автор: Felipe Espic
Более подробная информация на http://www.felipeespic.com/magphase/
Это система анализа формы речевых сигналов/синтеза, используемая в статистическом параметрическом речевом синтезе (SPSS).
Модуль анализа извлекает четыре потока функций, описывающие спектры величины, фазовые спектры и F0. Эти функции могут быть использованы для обучения регрессионной модели (например, DNN, LSTM, HMM и т. Д.), Таким образом, прогнозируемые значения могут быть сгенерированы. Модуль синтеза принимает эти функции на входе, чтобы генерировать окончательную синтезированную форму волны.
Ключевые моменты:
Смотрите файл лицензии для получения подробной информации.
pip install numpy scipy soundfile matplotlib
Скачать Magphase: git clone https://github.com/CSTR-Edinburgh/magphase.git
Загрузите и компилируйте SPTK и жнец по:
cd magphase/tools
./download_and_compile_tools.sh
Это автоматически собирает и настраивает SPTK и Жнетель для вас ... и это все!
Просто перейдите в /demos , прочитайте инструкции внутри демонстрационных сценариев, которые очень дисквизительны. Они должны выходить из коробки, запустив python <demo_script> .
Мы рекомендуем, что вы играете в первую очередь с demo_copy_synthesis_lossless.py , а затем demo_copy_synthesis_low_dim.py Они оба выполняют процедуры анализа/синтеза.
Затем вы можете изменить демонстрационные сценарии в соответствии с вашими потребностями.
Примечание: просто не забывайте запустить сценарии из их местоположений.
Мы предоставляем две демонстрации, распределенные с официальным распространением Мерлина. Они показывают примеры Merlin с интеграцией Magphase:
Текст-речь: демонстрация Merlin's SLT_ARCTIC (небольшие и полные версии подмножества)
Конверсия голоса: демонстрация конверсии голоса Мерлина (грубо протестировано)
Нам нужна помощь, чтобы улучшить это программное обеспечение. Вы можете колабатировать по:
Создание голосов TTS с использованием Merlin и Magphase и сравнивается с другими вокодерами, например, World. Тогда, пожалуйста, сообщите нам о своих результатах. Мы протестировали Magphase только с несколькими голосами, и это необходимо для покрытия более широкого диапазона. Недавно мы исправили некоторые ошибки, которые вышли благодаря людям, сообщившим о своих результатах, используя новые данные.
Реализация поддержки частоты кадров с собственной переменной в Мерлине. Magphase работает в моде с переменной частотой кадров (синхронный шаг).