vits2_pytorch下载vits2_pytorch源代码下载

vits2_pytorch

Ai源码

1.0.0

下载

VIT2：通过对抗性学习和建筑设计提高单级文本到语音的质量和效率

Jungil Kong，Jihoon Park，Beomjeong Kim，Jeongmin Kim，Dohee Kong，Sangjin Kim

vits2纸的非官方实施，续集Vits Paper。（感谢作者的工作！）

Alt文字

最近已经对单阶段的文本到语音模型进行了积极研究，其结果表现优于两阶段管道系统。尽管以前的单阶段模型取得了长足的进步，但其间歇性的不自然，计算效率和对音素转化的强烈依赖有改善的余地。在这项工作中，我们介绍了VITS2，这是一种单阶段的文本到语音模型，通过改进以前工作的几个方面来有效地综合了更自然的语音。我们提出了改进的结构和训练机制，并提出了所提出的方法可有效改善自然性，多演讲者模型中语音特征的相似性以及培训和推理的效率。此外，我们证明，在我们的方法中可以大大降低对先前作品中音素转换的强大依赖性，从而可以完全终端单级方法。

学分

我们将根据Vits Repo构建此存储库。目的是使该模型更容易从VIT验证的模型转移学习！
（08-17-2023） - 作者真的很乐意指导我完成论文并回答我的问题。我愿意讨论有关实施的任何更改或回答问题。请随时打开问题或直接与我联系。

预验证的检查站

ljspeech-no-sdp（请参阅此CheckPproint文件夹中的config.yaml）| 64k步骤|证明培训有效！会建议专家将CKPT重命名为 *_0.pth，并使用转移学习开始培训。（我将尽快添加一个笔记本，以帮助初学者）。
查看“讨论”页面以获取培训日志，张板链接以及其他社区贡献。

示例音频

俄罗斯训练有素的模型样本＃32。感谢@shigabeev分享样品。
非本地EN数据集讨论页面上的一些样本。感谢@AthenasAurav使用其私人GPU资源和数据集！
添加了示例音频 @104k步骤。 ljspeech-nosdp;张板
越南样品感谢 @ductho9799分享！

先决条件

Python> = 3.10
用Google Colab和Lambdalabs Cloud在Pytorch版本1.13.1上测试。
克隆这个存储库
安装Python要求。请参阅要求
1. 您可能需要先安装ESPEAK： apt-get install espeak
下载数据集
1. 下载并提取LJ语音数据集，然后重命名或创建指向数据集文件夹的链接： ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. 有关多演讲器设置，请下载并提取VCTK数据集，然后将WAV文件下示例文件为22050 Hz。然后重命名或创建指向数据集文件夹的链接： ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
如果您使用自己的数据集，则构建单调对齐搜索并进行预处理。

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

如何跑步（干跑）

模型向前通行证（干跑）

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

训练例子

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

戒酒，功能和笔记

持续时间预测指标（图1A）

将LSTM鉴别器添加到持续时间预测指标中。
持续时间预测指标增加了对抗性损失。（config文件中的“ use_duration_discriminator”标志;默认值为“ true”）
带有高斯噪声的单调对准搜索；可能需要专家验证（第2.2节）
在配置文件中添加了“ use_noise_scaled_mas”标志。从真或错误中选择；根据步骤数量训练时更新噪声，并且永远不会低于0.0
UPDATE Models.py/train.py/train_ms.py
更新配置文件（vits2_vctk_base.json; vits2_ljs_base.json）
更新train.py和train_ms.py中的损失

归一流的变压器块（图1b）

在归一化流中添加了变压器块。有三种类型的变压器块：前卷积（我的实现），FFT（来自SO-VITS-SVC Repo）和单层。
在配置文件中添加了“ transformer_flow_type”标志。从“ pre_conv”，“ fft”，“ mono_layer_inter_residual”，“ mono_layer_post_residual”中选择。
py（resutualCouplingTransFormerSlayer，residualCouplingTransFormerSblock，fftransformerCouplingLayer，monotransformerflowlayer）中添加了图层和块。
添加配置文件（vits2_ljs_base.json;可以使用“ use_transformer_flows”标志打开