CDFSE_FastSpeech2 Скачать - CDFSE_FastSpeech2 Скачать исходный код

CDFSE_FastSpeech2

AI Исходный код

1.0.0

Скачать

CDFSE_FASTSPEECH2

Этот репо содержит код, сопровождающий статью «Зависимый от контента мелкозернистый динамик для адаптации с нулевым выстрелом в синтез текста к рече», которая реализована на основе Ming024/Fastspeech2 (большое спасибо!).

2022-06-15 ОБНОВЛЕНИЕ: Эта работа была принята в межспинке 2022.

Образцы | Бумага

Использование

0. Набор данных

Мандарин: Aishell3
Английский: libritts

1. Настройка среды

pip3 install -r requirements.txt

2. Предварительная обработка данных

Пожалуйста, обратитесь к Ming024/Fastspeech2 для получения более подробной информации.

Например,

первый забег

python3 prepare_align.py config/AISHELL3/preprocess.yaml

Затем загрузите файлы TextGrid или используйте MFA для выравнивания корпуса, и поместите файлы TextGrid в свой [Preprocessed_data_Path] как предварительно обработанный_дата/aishell3/textgrid/.
Наконец, запустите сценарий предварительной обработки

python3 preprocess.py config/AISHELL3/preprocess.yaml

Кроме того:

Мы разделили поезд, Val и тестовые наборы в препроцессованном_дата/[набор данных]/*. Таким образом, вы можете поместить их непосредственно в свой [preprocessed_data_path] после обработки данных, или повторно распределить их самостоятельно.
Мы предоставили "speakerfile_dict.json" в предварительном обработке_дата/[DataSet]/* (используется в dataSet.py для случайной загрузки эталонной речи), и вы можете генерировать его с помощью Generate_speakerfiledict.py.
Мы предоставили некоторые предварительно предварительно подготовленные параметры Hifigan в Hifigan/Pretreded/ *, вы можете просто загрузить их (не забудьте расслабиться с *.zip file) или использовать свой собственный хорошо обученный вокадер в utils/model.py.

3. Обучение

Тренировать модель

python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Отмечено: если вы обнаружите, что потеря PHNCLS, кажется, не является тенденцией или не заметна, попробуйте вручную настройку DICTS Symbol в текстовом/символе.

(Необязательно) Используйте Tensorboard

tensorboard --logdir output/log/AISHELL3

4. Вывод

Для партии

python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

Для одиночества

 # For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室，聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Обновления реализации

(2022-06-20) Нормализация экземпляра принята в Encoder Content Content для лучшей производительности.
(2022-06-01) Поддержка настройки английского языка: набор данных Libritts Multi-Speaker (Train-Clean-100 + Dev-Clean + Test-Clean).
(2022-04-27) Поддержите непосредственно с использованием Wavfile (*.wav) в качестве эталонной речи вместо файла Numpy mel-spectrogram в одиночном режиме.

Ссылки

ming024/fastspeech2
Jik876/Hifi-Gan

Цитирование

 @misc{zhou2022content,
  title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis}, 
  author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
  year={2022},
  eprint={2204.00990},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
}

Расширять

Дополнительная информация