vits2_pytorch下載vits2_pytorch源代碼下載

vits2_pytorch

Ai源碼

1.0.0

下載

VIT2：通過對抗性學習和建築設計提高單級文本到語音的質量和效率

Jungil Kong，Jihoon Park，Beomjeong Kim，Jeongmin Kim，Dohee Kong，Sangjin Kim

vits2紙的非官方實施，續集Vits Paper。（感謝作者的工作！）

Alt文字

最近已經對單階段的文本到語音模型進行了積極研究，其結果表現優於兩階段管道系統。儘管以前的單階段模型取得了長足的進步，但其間歇性的不自然，計算效率和對音素轉化的強烈依賴有改善的餘地。在這項工作中，我們介紹了VITS2，這是一種單階段的文本到語音模型，通過改進以前工作的幾個方面來有效地綜合了更自然的語音。我們提出了改進的結構和訓練機制，並提出了所提出的方法可有效改善自然性，多演講者模型中語音特徵的相似性以及培訓和推理的效率。此外，我們證明，在我們的方法中可以大大降低對先前作品中音素轉換的強大依賴性，從而可以完全終端單級方法。

學分

我們將根據Vits Repo構建此存儲庫。目的是使該模型更容易從VIT驗證的模型轉移學習！
（08-17-2023） - 作者真的很樂意指導我完成論文並回答我的問題。我願意討論有關實施的任何更改或回答問題。請隨時打開問題或直接與我聯繫。

預驗證的檢查站

ljspeech-no-sdp（請參閱此CheckPproint文件夾中的config.yaml）| 64k步驟|證明培訓有效！會建議專家將CKPT重命名為 *_0.pth，並使用轉移學習開始培訓。（我將盡快添加一個筆記本，以幫助初學者）。
查看“討論”頁面以獲取培訓日誌，張板鏈接以及其他社區貢獻。

示例音頻

俄羅斯訓練有素的模型樣本＃32。感謝@shigabeev分享樣品。
非本地EN數據集討論頁面上的一些樣本。感謝@AthenasAurav使用其私人GPU資源和數據集！
添加了示例音頻 @104k步驟。 ljspeech-nosdp;張板
越南樣品感謝 @ductho9799分享！

先決條件

Python> = 3.10
用Google Colab和Lambdalabs Cloud在Pytorch版本1.13.1上測試。
克隆這個存儲庫
安裝Python要求。請參閱要求
1. 您可能需要先安裝ESPEAK： apt-get install espeak
下載數據集
1. 下載並提取LJ語音數據集，然後重命名或創建指向數據集文件夾的鏈接： ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. 有關多演講器設置，請下載並提取VCTK數據集，然後將WAV文件下示例文件為22050 Hz。然後重命名或創建指向數據集文件夾的鏈接： ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
如果您使用自己的數據集，則構建單調對齊搜索並進行預處理。

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

如何跑步（幹跑）

模型向前通行證（幹跑）

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

訓練例子

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

戒酒，功能和筆記

持續時間預測指標（圖1A）

將LSTM鑑別器添加到持續時間預測指標中。
持續時間預測指標增加了對抗性損失。（config文件中的“ use_duration_discriminator”標誌;默認值為“ true”）
帶有高斯噪聲的單調對準搜索；可能需要專家驗證（第2.2節）
在配置文件中添加了“ use_noise_scaled_mas”標誌。從真或錯誤中選擇；根據步驟數量訓練時更新噪聲，並且永遠不會低於0.0
UPDATE Models.py/train.py/train_ms.py
更新配置文件（vits2_vctk_base.json; vits2_ljs_base.json）
更新train.py和train_ms.py中的損失

歸一流的變壓器塊（圖1b）

在歸一化流中添加了變壓器塊。有三種類型的變壓器塊：前卷積（我的實現），FFT（來自SO-VITS-SVC Repo）和單層。
在配置文件中添加了“ transformer_flow_type”標誌。從“ pre_conv”，“ fft”，“ mono_layer_inter_residual”，“ mono_layer_post_residual”中選擇。
py（resutualCouplingTransFormerSlayer，residualCouplingTransFormerSblock，fftransformerCouplingLayer，monotransformerflowlayer）中添加了圖層和塊。
添加配置文件（vits2_ljs_base.json;可以使用“ use_transformer_flows”標誌打開