Скачать MTTS - Скачать исходный код MTTS

MTTS

AI Исходный код

1.0.0

Скачать

Этот проект был остановлен и довольно старый

рекомендую:

https://github.com/paddlepaddle/paddlespeech/tree/develop/paddlespeech/t2s/frontend
https://github.com/thuhcsi/crystal

Добро пожаловать в присоединение

Голос Синтез связи QQ Группа: 882726654

Демонстрация Mtts Mandarin/китайский текст на фронт речи

Мандарин/китайский текст к речи на основе статистического синтеза речи параметров с использованием Merlin Toolkit

Это всего лишь демонстрация на передней части синтеза произношения. Он не обеспечивает функций регуляризации текста и прогнозирования ритма. Используйте Pypinyin, чтобы преобразовать текст в пиниин и использовать заикание для причастия. Точность этих двух не так хороша, как коммерческий уровень.

Для других проектов синтеза голоса, портальный сквозной-хорошее направление, и естественность лучше, чем у Мерлина.

Это всего лишь демонстрация мандарина, которая является отсутствием некоторых частей, таких как «нормализация текста» и «Прогнозирование просодии», и набор телефона и набор вопросов, установленный этот проект, который еще не полностью протестирован.

Грубая документация: проект документации, написанная на мандаринском языке

Данные

Набор данных синтеза речи с открытым исходным кодом в Интернете нет, этот Proj использовал набор данных THCHS30 для демострата синтеза речи

ОБНОВЛЯТЬ

Данные об синтезе речи с открытым исходным кодом от компании Banker, данные о синтезе речи с открытым исходным кодом, благодаря компании Biobei Company

【Скачать данные】 https://weixinxcxdb.oss-cn-beijing.aliyuncs.com/gwyinpinku/bznsyp.rar 【Описание данных】 http://www.data-baker.com/open_source.html

Сгенерированные образцы

Слушайте https://jackiexiao.github.io/mtts/

Как воспроизвести

Во -первых, вам нужны данные содержит WAV и TXT (просодия отмечен).
Во -вторых, генерируйте метку HTS, используя этот проект
Использование Merlin/egs/mandarin_voice для обучения и генерации голоса мандарина

Контекст, связанные с контекстом аннотации и набора вопросов

Контекст, связанная с аннотацией
Набор вопросов
Правила для разработки правил проектирования набора вопросов

Установить

Python: Python3.6
Система: Linux (протестирован на Ubuntu16.04)

 pip install jieba pypinyin
sudo apt-get install libatlas3-base

Запустите bash tools/install_mtts.sh
Или скачать файл самостоятельно

Скачать Montreal-Forced-Aligner и Unzip в инструменты каталогов/
Скачать acoustic_model thchs30.zip и копировать в каталог Misc/

Запустить демонстрацию

 bash run_demo.sh

Использование

1. Сгенерировать метку HTS от WAV и текста

Использование: запустите python src/mtts.py txtfile wav_directory_path output_directory_path (абсолютный путь или относительный путь), тогда вы получите метку HTS, если у вас есть собственная акустическая модель, приготовленная на MonthReal-Forced-Aligner, Add -a your_acoustic_model.zip , в противном случае, этот проект, использующий thChos-Zip.
Внимание: В настоящее время поддерживает только китайский иерогтерный стиль, TXT не должен иметь никакого номера Аравии или английского алфавита (не может содержать арабские цифры и английские персонажи)

Пример txtfile

 A_01 这是一段文本
A_02 这是第二段文本

Пример wav_directory (скорость выборки должна превышать 16 кГц)

 A_01.wav  
A_02.wav

2. Сгенерировать метку HTS по тексту с или без файла выравнивания

Использование: запустите python src/mandarin_frontend.py txtfile output_directory_path
или импортировать mandarin_frontend

 from mandarin_frontend import txt2label

result = txt2label('向香港特别行政区同胞澳门和台湾同胞海外侨胞')
[print(line) for line in result]

# with prosody mark and alignment file (sfs file)
# result = txt2label('向#1香港#2特别#1行政区#1同胞#4澳门#2和#1台湾#1同胞#4海外#1侨胞',
            sfsfile='example_file/example.sfs')

См. Исходный код для получения дополнительной информации, но обратите внимание на файл выравнивания (файл SFS), формат - это endtime phone_type , а не start_time, phone_type (который отличается от данных речи Ocean)

3. Принудительное выравнивание

В этом проекте используется Montreal-Forced-Aligner, чтобы сделать принудительное выравнивание, если вы хотите получить лучшее выравнивание, используйте свои данные для обучения модели выравнивания, см. MFA: Algin, используя только датасетс.

Мы обучили акустическую модель, используя набор данных THCHS30, см misc/thchs30.zip , словарь, который мы используем MANDARIN_MTTS.LEXICON. Если вы используете более крупный набор данных, чем THCHS30, вы можете получить лучшее выравнивание.
Если вы хотите использовать предварительно обученную модель MFA (Montreal-Forced-Aligner), это словарь, который вам нужен мандарин-к-монреал, обучаемый моделем.

Просодия Марк

Вы можете генерировать метку HTS без просодии. Мы предполагаем, что сегмент слов меньше, чем просодическое слово (которое скорректируется в коде)

"#0", "#1", "#2", "#3" и "#4" - это символы просодии.

#0 означает сегмент слов
#1 означает просодическое слово
#2 означает стрессовое слово (на самом деле в этом проекте мы решаем его как #1)
#3 означает просодическую фразу
#4 означает международная фраза