AdaSpeech скачать - загрузка исходного кода AdaSpeech

AdaSpeech

AI Исходный код

1.0.0

Скачать

Adaspeech: адаптивный текст к речи для пользовательского голоса [WIP]

Неофициальная внедрение Pytorch Adaspeech.

Примечание:

Я не рассматриваю вариант использования с несколькими динамиками, я гораздо больше фокусируется только на одном динамике.
Я буду использовать только Utterance level encoder и Phoneme level encoder а не норму слоя условия (которая является душой статьи статьи), он определенно ограничивает адаптивную природу Adaspeech, но я сосредоточен на улучшении акустического обобщения 2 -го сыска, а не адаптации.

Цитаты

 @misc { chen2021adaspeech ,
      title = { AdaSpeech: Adaptive Text to Speech for Custom Voice } , 
      author = { Mingjian Chen and Xu Tan and Bohan Li and Yanqing Liu and Tao Qin and Sheng Zhao and Tie-Yan Liu } ,
      year = { 2021 } ,
      eprint = { 2103.00993 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

Требования :

Весь код, написанный в Python 3.6.2 .

Установите Pytorch

Перед установкой Pytorch, пожалуйста, проверьте свою версию CUDA, выполнив следующую команду: nvcc --version

 pip install torch torchvision

В этом репо я использовал pytorch 1.6.0 для функции torch.bucketize , которая не присутствует в предыдущих версиях Pytorch.

Установка других требований:

 pip install -r requirements.txt

Для использования Tensorboard установить tensorboard version 1.14.0 Seperatly с поддерживаемым tensorflow (1.14.0)

Для предварительной обработки:

Папка filelists содержит MFA (MotReal Force Aligner), обработанные файлы набора данных LJSPEECH, поэтому вам не нужно выравнивать текст с аудио (для продолжительности извлечения) для набора данных LJSPEECH. Для другого набора данных следуйте инструкции здесь. Для другого предварительного обработки выполнения следующей команды:

 python nvidia_preprocessing.py -d path_of_wavs

За поиск мин и максимума F0 и энергии

 python compute_statistics.py

Обновите следующее в hparams.py Min и Max of F0 и Energy

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

Для обучения

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

Примечание

Для получения более полного и конечного клонирования голоса или текста на речевой (TTS), пожалуйста, посетите технологии DeepSync.

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-08-21
размер 4.13MB
От Github

Связанные приложения

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

AdaSpeech

Adaspeech: адаптивный текст к речи для пользовательского голоса [WIP]

Примечание:

Цитаты

Требования :

Для предварительной обработки:

Для обучения

Примечание

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express