vits2_pytorch скачать - vits2_pytorch исходный код скачать

vits2_pytorch

AI Исходный код

1.0.0

Скачать

VITS2: улучшение качества и эффективности одноступенчатого текста в речь с помощью состязательного обучения и дизайна архитектуры

Jungil Kong, Jihoon Park, Beomejeong Kim, Jeongmin Kim, Doheee Kong, Sangjin Kim

Неофициальная реализация бумаги VITS2, продолжение бумаги VITS. (Спасибо авторам за их работу!)

Alt Text

Одноступенчатые модели текста в речь были активно изучены недавно, и их результаты превзошли двухэтапные трубопроводные системы. Хотя предыдущая одноступенчатая модель добилась большого прогресса, существует место для улучшения с точки зрения ее прерывистой неестественности, вычислительной эффективности и сильной зависимости от преобразования фонем. В этой работе мы вводим VITS2, одноэтапную модель текста в речь, которая эффективно синтезирует более естественную речь, улучшая несколько аспектов предыдущей работы. Мы предлагаем улучшенные структуры и механизмы обучения и представляем, что предлагаемые методы эффективны для улучшения естественности, сходства речевых характеристик в модели с несколькими динамиками и эффективность обучения и вывода. Кроме того, мы демонстрируем, что сильная зависимость от преобразования фонем в предыдущих работах может быть значительно снижена с помощью нашего метода, что позволяет полностью подходить к одноэтажному одностадийному подходу.

Кредиты

Мы построим это репо на основе репо Vits. Цель состоит в том, чтобы облегчить передачу обучения из визитов на предварительную модель!
(08-17-2023)-Авторы были действительно добрыми, чтобы провести меня через газету и ответить на мои вопросы. Я открыт, чтобы обсудить любые изменения или ответить на вопросы, касающиеся реализации. Пожалуйста, не стесняйтесь открывать проблему или свяжитесь со мной напрямую.

Предварительные контрольно -пропускные пункты

LJSPEECH-NO-SDP (см. Config.yaml в этой папке Checkpoint) | 64K Шаги | Доказательство, что обучение работает! Рекомендую экспертов переименовать CKPTS в *_0.pth и начать обучение с помощью Transfer Learning. (Я добавлю ноутбук для этого, чтобы помочь новичкам).
Проверьте страницу «Обсуждение» для журналов обучения, ссылок на тензоры и другие вклад сообщества.

Образец аудио

Российские обученные образцы модели № 32. Спасибо @shigabeev за то, что поделились образцами.
Некоторые образцы на странице для обсуждения набора данных EN. Спасибо @athenasaurav за использование его частных ресурсов GPU и набора данных!
Добавлен пример аудио @104K шагов. LJSPEECH-NOSDP; Тенсорборд
Вьетнамские образцы благодаря @ductho9799 за обмен!

Предварительные условия

Python> = 3.10
Протестировано на версии Pytorch 1.13.1 с Google Colab и Lambdalabs Cloud.
Клонировать это хранилище
Установите требования Python. Пожалуйста, обратитесь к требованиям.txt
1. Вам может понадобиться сначала установить Espeak: apt-get install espeak
Скачать наборы данных
1. Скачать и извлечь набор данных речи LJ, затем переименовать или создать ссылку на папку набора данных: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Для настройки многокладов, загрузите и извлеките набор данных VCTK и файлы WAV Downsample-Downsample до 22050 Гц. Затем переименовать или создать ссылку на папку набора данных: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
Создайте монотонную выравнивание и запустите предварительную обработку, если вы используете свои собственные наборы данных.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Как бежать (сухой)

модель вперед проход (сухой)

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

Пример обучения

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

Todos, функции и заметки

Продолжительность предиктора (рис. 1а)

Добавлен дискриминатор LSTM к предиктору продолжительности.
Добавлена состязательная потеря к предиктору продолжительности. ("use_duration_discriminator" флаг в файле конфигурации; по умолчанию "true")
Поиск монотонного выравнивания с добавлением гауссовского шума; Может потребоваться экспертная проверка (раздел 2.2)
Добавлен флаг "use_noise_scaled_mas" в файле конфигурации. Выберите из истинного или ложного; Обновляет шум во время обучения на основе количества шагов и никогда не опускается ниже 0,0
Обновление моделей.py/train.py/train_ms.py
Обновить файлы конфигурации (vits2_vctk_base.json; vits2_ljs_base.json)
Обновить потери в Train.py и Train_ms.py

Блок трансформатора в нормализующем потоке (рис. 1B)

Добавлен блок трансформатора к нормализующему потоку. Существует три типа блоков трансформатора: предварительная концентрация (моя реализация), FFT (от SO-VITS-SVC Repo) и монослой.
Добавлен флаг "Transformer_flow_type" в файле конфигурации. Выберите из "pre_conv", "FFT", "mono_layer_inter_residual", "mono_layer_post_residual".
Добавлены слои и блоки в моделях.
Добавить в файл конфигурации (vits2_ljs_base.json; можно включить с помощью «use_transformer_flows» флага)

Специальный энкодер с динамиком (рис. 1C)

Добавлен динамик, встраиваясь в текстовый энкодер в моделях.py (Textencoder; обратно совместимо с VIT)
Добавить в файл конфигурации (vits2_ljs_base.json; можно включить флаг "use_spk_conditioned_encoder")

MEL Spectrogram Задний энкодер (раздел 3)

Добавлен MEL Spectrogram Задний энкодер в Train.py
Дополненный новый файл конфигурации (vits2_ljs_base.json; можно включить с помощью флага "use_mel_posterior_encoder")
Обновлено «data_utils.py» для использования флага "use_mel_posterior_encoder" для vits2

Обучающие сценарии

Добавлены флаги vits2 в train.py (модель с одним пряностями)
Добавлены флаги VITS2 в Train_ms.py (модель с несколькими динамиками)

Onnx Export

Добавить поддержку экспорта ONNX.

Демо

Добавить демонстрационную поддержку Gradio.

Специальные упоминания

@erogol для быстрой обратной связи и руководства. (Пожалуйста, проверьте его удивительный репо).
@lexkoro для обсуждения и помощи с прототипом обучения.
@Manmay-Nakhashi для обсуждений и помощи с кодом.
@athenasaurav для предложения поддержки GPU для обучения.
@W11WO для поддержки ONNX.
@Subarasheeese для gradio UI.

Расширять

Дополнительная информация