pflowtts_pytorch скачать - pflowtts_pytorch исходный код скачать

P-Flow: быстрые и эффективные данные с нулевым выстрелом через речь

Авторы: Sungwon Kim, Kevin J Shih, Rohan Badlani, Joao Felipe Santos, Evelina Bhakturina, Mikyas Desta, Rafael Valle, Sungroh Yoon, Bryan Catanzaro

Партнерство: nvidia

Статус: Добавлены более новые образцы с лучшей просодией и произношением. Проверьте папку `samples` . LJSPEECH Pretended CKPT - GDRIVE LINK MULTIPLECKER VCTK Pretending CKPT (1100 EPOCH ON VCTK) - HUGGINGFACE

Неофициальная реализация бумаги P-Flow: быстрое и эффективное TTS с нулевым выстрелом посредством речи NVIDIA.

P-Flow

В то время как недавние крупномасштабные языковые модели нейронного кодека показали значительное улучшение с нулевым выстрелом, обучаясь на тысячи часов данных, они страдают от недостатков, таких как отсутствие устойчивости, медленная скорость отбора проб, аналогичную предыдущим методам авторегрессии TTS, и зависимость от предварительно обученных представлений о нейральном коде. Наша работа предлагает P-Flow, быструю и эффективную модель TTS с нулевым выстрелом, которая использует речевые подсказки для адаптации динамиков. P-Flow включает в себя речевой текстовый энкодер для адаптации динамика и генеративный декодер, соответствующий потоку для высококачественного и быстрого синтеза речи. Наш текстовый энкодер, выдвинутый речью, использует речевые подсказки и ввод текста для генерации кондиционерного представления текста. Генеративный декодер, соответствующий потоку, использует выходы динамиков для синтеза высококачественной персонализированной речи значительно быстрее, чем в режиме реального времени. В отличие от языковых моделей нейронного кодека, мы специально обучаем P-Flow на наборе данных Libritts, используя непрерывную мель-предложение. Благодаря нашему методу обучения с использованием непрерывных речевых подсказок, P-Flow соответствует производительности сходства динамиков крупномасштабных моделей с нулевым выстрелом TTS с двумя порядками меньше данных обучения и имеет более чем на 20 × более высокую скорость отбора проб. Наши результаты показывают, что P-Flow имеет лучшее произношение и предпочтительнее человеческого сходства и сходства динамиков с его недавними современными аналогами, таким образом определяя P-Flow как привлекательную и желательную альтернативу.

Кредиты

Конечно, добрый автор газеты за то, что он потратил некоторое время, чтобы объяснить мне некоторые детали бумаги, которую я сначала не понимал.
Мы будем строить это репо на основе репо Vits2, Matcha-TTS Repo и Voiceflow-Tts Repo
Люди в LMNT-COM. Попробуйте их сверхбыстрые, реалистичные модели TTS в LMNT-COM. Если вам нравится то, что мы здесь строим, присоединяйтесь к нам в LMNT.

Сухой пробег

 cd pflowtts_pytorch/notebooks

 import sys
sys . path . append ( '..' )

from pflow . models . pflow_tts import pflowTTS
import torch
from dataclasses import dataclass

@ dataclass
class DurationPredictorParams :
    filter_channels_dp : int
    kernel_size : int
    p_dropout : float

@ dataclass
class EncoderParams :
    n_feats : int
    n_channels : int
    filter_channels : int
    filter_channels_dp : int
    n_heads : int
    n_layers : int
    kernel_size : int
    p_dropout : float
    spk_emb_dim : int
    n_spks : int
    prenet : bool

@ dataclass
class CFMParams :
    name : str
    solver : str
    sigma_min : float

# Example usage
duration_predictor_params = DurationPredictorParams (
    filter_channels_dp = 256 ,
    kernel_size = 3 ,
    p_dropout = 0.1
)

encoder_params = EncoderParams (
    n_feats = 80 ,
    n_channels = 192 ,
    filter_channels = 768 ,
    filter_channels_dp = 256 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    spk_emb_dim = 64 ,
    n_spks = 1 ,
    prenet = True
)

cfm_params = CFMParams (
    name = 'CFM' ,
    solver = 'euler' ,
    sigma_min = 1e-4
)

@ dataclass
class EncoderOverallParams :
    encoder_type : str
    encoder_params : EncoderParams
    duration_predictor_params : DurationPredictorParams

encoder_overall_params = EncoderOverallParams (
    encoder_type = 'RoPE Encoder' ,
    encoder_params = encoder_params ,
    duration_predictor_params = duration_predictor_params
)

@ dataclass
class DecoderParams :
    channels : tuple
    dropout : float
    attention_head_dim : int
    n_blocks : int
    num_mid_blocks : int
    num_heads : int
    act_fn : str

decoder_params = DecoderParams (
    channels = ( 256 , 256 ),
    dropout = 0.05 ,
    attention_head_dim = 64 ,
    n_blocks = 1 ,
    num_mid_blocks = 2 ,
    num_heads = 2 ,
    act_fn = 'snakebeta' ,
)
    
model = pflowTTS (
    n_vocab = 100 ,
    n_feats = 80 ,
    encoder = encoder_overall_params ,
    decoder = decoder_params . __dict__ ,
    cfm = cfm_params ,
    data_statistics = None ,
)

x = torch . randint ( 0 , 100 , ( 4 , 20 ))
x_lengths = torch . randint ( 10 , 20 , ( 4 ,))
y = torch . randn ( 4 , 80 , 500 )
y_lengths = torch . randint ( 300 , 500 , ( 4 ,))

dur_loss , prior_loss , diff_loss , attn = model ( x , x_lengths , y , y_lengths )
# backpropagate the loss 

# now synthesises
x = torch . randint ( 0 , 100 , ( 1 , 20 ))
x_lengths = torch . randint ( 10 , 20 , ( 1 ,))
y_slice = torch . randn ( 1 , 80 , 264 )

model . synthesise ( x , x_lengths , y_slice , n_timesteps = 10 )

Быстрый запуск в Google Colab

Инструкции для запуска

Создать среду (предложенная, но необязательно)

conda create -n pflowtts python=3.10 -y
conda activate pflowtts

Оставайтесь в корневом каталоге (конечно, сначала клонировать репо!)

 cd pflowtts_pytorch
pip install -r requirements.txt

Построить монотонное поиск выравнивания

 # Cython-version Monotonoic Alignment Search
python setup.py build_ext --inplace

Давайте предположим, что мы тренируемся с речью LJ

Загрузите набор данных отсюда, извлеките его в data/LJSpeech-1.1 и подготовите списки файлов, чтобы указать на извлеченные данные, как для пункта 5, в настройке репозиции NVIDIA Tacotron 2.

3A. Перейдите в configs/data/ljspeech.yaml и изменить

 train_filelist_path : data/filelists/ljs_audio_text_train_filelist.txt
valid_filelist_path : data/filelists/ljs_audio_text_val_filelist.txt

3B. Помощник командует ленивым

 ! mkdir -p /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_test_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_test_filelist.txt
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_train_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_train_filelist.txt
! wget -O /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_val_filelist.txt https://raw.githubusercontent.com/NVIDIA/tacotron2/master/filelists/ljs_audio_text_val_filelist.txt

! sed -i -- ' s,DUMMY,/home/ubuntu/LJSpeech/LJSpeech-1.1/wavs,g ' /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ * .txt

! sed -i -- ' s,train_filelist_path: data/filelists/ljs_audio_text_train_filelist.txt,train_filelist_path: /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_train_filelist.txt,g ' /home/ubuntu/LJSpeech/pflowtts_pytorch/configs/data/ljspeech.yaml
! sed -i -- ' s,valid_filelist_path: data/filelists/ljs_audio_text_val_filelist.txt,valid_filelist_path: /home/ubuntu/LJSpeech/LJSpeech-1.1/filelists/ljs_audio_text_val_filelist.txt,g ' /home/ubuntu/LJSpeech/pflowtts_pytorch/configs/data/ljspeech.yaml

Создать статистику нормализации с помощью файла YAML конфигурации набора данных

 cd pflowtts_pytorch/pflow/utils
python generate_data_statistics.py -i ljspeech.yaml
# Output:
#{ ' mel_mean ' : -5.53662231756592, ' mel_std ' : 2.1161014277038574}

Обновите эти значения в configs/data/ljspeech.yaml под ключом data_statistics .

data_statistics:  # Computed for ljspeech dataset
  mel_mean: -5.536622
  mel_std: 2.116101

на пути вашего поезда и проверки файлов.

Запустите сценарий обучения

python pflow/train.py experiment=ljspeech

Для обучения мульти-GPU, запустить

python pflow/train.py experiment=ljspeech trainer.devices=[0,1]

Детали архитектуры

Речь вызвал текстовый энкодер с Prenet и веревочным трансформатором
Продолжительный предиктор с MAS
Сопоставление потока Генеративный декодер с CFM (в бумаге используется декодер Wavenet; мы используем модифицированный Wavenet, и дополнительный декодер U-Net включен для экспериментов с)
Ввод речи ввод в настоящее время нарезает входную спектрограмму и объединяет его с помощью встроенного текста. Может поддерживать ввод внешнего приглашения на речь (также во время обучения) также
PFLOW побудить потерю маскировки для обучения
Хифиган для Vocoder
Руководство для отбора проб