vits2_pytorch 다운로드 vits2_pytorch 소스 코드 다운로드

vits2_pytorch

AI 소스 코드

1.0.0

다운로드

VITS2 : 대적 학습 및 건축 설계로 단일 단계 텍스트 음성 연설의 품질과 효율성 향상

Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim

VITS2 용지의 비공식적 구현, VITS PAPER의 속편. (작가들에게 감사합니다!)

대체 텍스트

단일 단계 텍스트 음성 연설 모델은 최근에 적극적으로 연구되었으며 그 결과는 2 단계 파이프 라인 시스템을 능가했습니다. 이전의 단일 단계 모델은 큰 진전을 이루었지만 간헐적 인 부 자연성, 계산 효율 및 음소 전환에 대한 강력한 의존성 측면에서 개선의 여지가 있습니다. 이 작업에서, 우리는 이전 작업의 여러 측면을 개선하여보다 자연스러운 음성을 효율적으로 합성하는 단일 단계 텍스트 연설 모델 인 VITS2를 소개합니다. 우리는 개선 된 구조 및 훈련 메커니즘을 제안하고 제안 된 방법이 자연성을 향상시키는 데 효과적이며, 멀티 스피커 모델에서 언어 특성의 유사성, 훈련 및 추론의 효율성을 제시합니다. 또한, 우리는 이전 작품에서 음소 전환에 대한 강력한 의존성이 우리의 방법으로 크게 줄어들 수 있음을 보여줍니다.

크레딧

우리는 Vits Repo를 기반 으로이 저장소를 구축 할 것입니다. 목표는이 모델이 VITS 사전 각인 모델에서 학습을보다 쉽게 전송할 수 있도록하는 것입니다!
(08-17-2023)-저자는 논문을 안내하고 내 질문에 답변하는 것이 정말 친절했습니다. 구현에 관한 변경 사항이나 질문에 대한 답변이 열려 있습니다. 자유롭게 문제를 열거나 직접 연락하십시오.

사전 체크 포인트

ljspeech-no-sdp (이 Checkppoint 폴더의 config.yaml 참조) | 64K 단계 | 훈련이 작동한다는 증거! CKPT의 이름을 *_0.pth로 바꾸고 전송 학습을 사용하여 교육을 시작하는 전문가를 권장합니다. (초보자를 돕기 위해 곧 노트북을 추가하겠습니다).
교육 로그 및 텐서 보드 링크 및 기타 커뮤니티 기여에 대한 '토론'페이지를 확인하십시오.

샘플 오디오

러시아 훈련 된 모델 샘플 #32. 샘플을 공유해 주신 @shigabeev에 감사드립니다.
Non-Native EN 데이터 세트 토론 페이지의 일부 샘플. 그의 개인 GPU 리소스 및 데이터 세트를 사용해 주신 @athenasaurav에게 감사드립니다!
104k 단계 @샘플 오디오가 추가되었습니다. ljspeech-nosdp; 텐서 보드
공유해 주신 @ductho9799 덕분에 베트남 샘플!

전제 조건

파이썬> = 3.10
Google Colab 및 Lambdalabs Cloud로 Pytorch 버전 1.13.1에서 테스트했습니다.
이 저장소를 복제하십시오
파이썬 요구 사항을 설치하십시오. 요구 사항 .txt를 참조하십시오
1. espeak를 먼저 apt-get install espeak 해야 할 수도 있습니다.
데이터 세트를 다운로드하십시오
1. LJ 음성 데이터 세트를 다운로드하여 추출한 다음 데이터 세트 폴더로 이름을 바꾸거나 만듭니다 : ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. 멀티 스피커 설정의 경우 VCTK 데이터 세트를 다운로드하여 추출하고 다운 샘플 WAV 파일을 22050 Hz로 다운로드하십시오. 그런 다음 데이터 세트 폴더로 이름을 바꾸거나 만듭니다 : ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
자체 데이터 세트를 사용하는 경우 단조로운 정렬 검색을 구축하고 전처리를 실행하십시오.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

실행 방법 (드라이 런)

Model Forward Pass (드라이 런)

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

훈련 예

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

Todos, 기능 및 메모

기간 예측 변수 (그림 1a)

기간 예측 변수에 LSTM 판별기를 추가했습니다.
기간 예측 변수에 적대 손실이 추가되었습니다. (구성 파일의 "use_duration_discriminator"플래그; 기본값은 "true")
가우스 소음이 추가 된 단조로운 정렬 검색; 전문가 확인이 필요할 수 있습니다 (2.2 절)
구성 파일에 "use_noise_scaled_mas"플래그를 추가했습니다. 참 또는 거짓 중에서 선택하십시오. 단계 수에 따라 훈련 중 소음을 업데이트하고 0.0 이하로 절대 진행하지 않습니다.
Models.py/train.py/train_ms.py를 업데이트하십시오
구성 파일 업데이트 (vits2_vctk_base.json; vits2_ljs_base.json)
Train.py 및 Train_ms.py의 손실을 업데이트하십시오

정규화 흐름의 변압기 블록 (그림 1B)

정규화 흐름에 변압기 블록을 추가했습니다. 트랜스포머 블록에는 세 가지 유형의 변압기 블록이 있습니다 : Pre-Convolution (My 구현), FFT (So-Vits-SVC Repo) 및 Mono-Layer가 있습니다.
구성 파일에 "transformer_flow_type"플래그를 추가했습니다. "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual"중에서 선택하십시오.
Models.py의 추가 레이어 및 블록 (GristualcouplingTransformersLayer, 잔여 쿠플링 트랜스포머 블록, fftransformerCouplingLayer, monotransformerflowlowner)
구성 파일 추가 (vits2_ljs_base.json; "use_transformer_flows"플래그를 사용하여 켜질 수 있음)

스피커 조건 텍스트 인코더 (그림 1c)

Models.py의 텍스트 인코더에 스피커 임베딩 추가
구성 파일 추가 (vits2_ljs_base.json; "use_spk_conditioned_encoder"플래그를 사용하여 켜질 수 있습니다)

Mel Spectrogram 후방 인코더 (섹션 3)

Train.py에 Mel Spectrogram 후방 인코더를 추가했습니다
추가 된 새 구성 파일 (VITS2_LJS_BASE.JSON; "use_mel_possournter_encoder"플래그를 사용하여 켜질 수 있음)
vits2 용 "use_mel_posternal_encoder"플래그를 사용하려면 'data_utils.py'를 업데이트했습니다