Download vits2_pytorch - vits2_pytorch code source download

vits2_pytorch

Kode Sumber AI

1.0.0

Unduh

Vits2: Meningkatkan Kualitas dan Efisiensi Teks-ke-Tanggal Single-Staf dengan Pembelajaran Perselisihan dan Desain Arsitektur

Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim

Implementasi tidak resmi dari kertas Vits2, sekuel ke kertas Vits. (Terima kasih kepada penulis atas pekerjaan mereka!)

Teks alt

Model teks-ke-speech tunggal telah dipelajari secara aktif baru-baru ini, dan hasilnya telah mengungguli sistem pipa dua tahap. Meskipun model tahap tunggal sebelumnya telah membuat kemajuan besar, ada ruang untuk perbaikan dalam hal ketidaksopanan yang terputus-putus, efisiensi komputasi, dan ketergantungan yang kuat pada konversi fonem. Dalam karya ini, kami memperkenalkan VITS2, model teks-ke-speech tunggal yang secara efisien mensintesis pidato yang lebih alami dengan meningkatkan beberapa aspek dari karya sebelumnya. Kami mengusulkan peningkatan struktur dan mekanisme pelatihan dan menunjukkan bahwa metode yang diusulkan efektif dalam meningkatkan kealamian, kesamaan karakteristik bicara dalam model multi-speaker, dan efisiensi pelatihan dan inferensi. Selain itu, kami menunjukkan bahwa ketergantungan yang kuat pada konversi fonem dalam karya-karya sebelumnya dapat dikurangi secara signifikan dengan metode kami, yang memungkinkan pendekatan tahap tunggal yang sepenuhnya akhir.

Kredit

Kami akan membangun repo ini berdasarkan repo Vits. Tujuannya adalah untuk membuat model ini lebih mudah untuk mentransfer pembelajaran dari model pretrained Vits!
(08-17-2023)-Penulis benar-benar baik untuk memandu saya melalui kertas dan menjawab pertanyaan saya. Saya terbuka untuk membahas perubahan atau menjawab pertanyaan tentang implementasi. Silakan membuka masalah atau hubungi saya secara langsung.

Pos pemeriksaan pretrained

Ljspeech-no-sdp (lihat config.yaml di folder CheckPpoint ini) | 64K Langkah | Bukti bahwa pelatihan berhasil! Akan merekomendasikan para ahli untuk mengganti nama CKPT ke *_0.pth dan memulai pelatihan menggunakan Transfer Learning. (Saya akan menambahkan buku catatan untuk ini segera membantu pemula).
Periksa halaman 'Diskusi' untuk log pelatihan dan tautan Tensorboard dan kontribusi komunitas lainnya.

Contoh audio

Sampel model terlatih Rusia #32. Terima kasih kepada @Shigabeev untuk berbagi sampel.
Beberapa sampel pada halaman diskusi EN Dataset non-asli. Terima kasih kepada @athenasaurav karena telah menggunakan sumber daya dan dataset GPU pribadinya!
Menambahkan sampel audio @104k langkah. ljspeech-nosdp; Tensorboard
Sampel Vietnam berkat @ductho9799 untuk berbagi!

Prasyarat

Python> = 3.10
Diuji pada Pytorch versi 1.13.1 dengan Google Colab dan Lambdalabs Cloud.
Kloning repositori ini
Pasang persyaratan Python. Silakan merujuk persyaratan.txt
1. Anda mungkin perlu menginstal Espeak terlebih dahulu: apt-get install espeak
Unduh set data
1. Unduh dan ekstrak dataset LJ Speech, lalu ganti nama atau buat tautan ke folder dataset: ln -s /path/to/LJSpeech-1.1/wavs DUMMY1
2. Untuk pengaturan mult-speaker, unduh dan ekstrak dataset VCTK, dan file WAV downsample ke 22050 Hz. Kemudian ganti nama atau buat tautan ke folder dataset: ln -s /path/to/VCTK-Corpus/downsampled_wavs DUMMY2
Bangun pencarian penyelarasan monotonik dan jalankan preprocessing jika Anda menggunakan set data Anda sendiri.

 # Cython-version Monotonoic Alignment Search
cd monotonic_align
python setup.py build_ext --inplace

# Preprocessing (g2p) for your own datasets. Preprocessed phonemes for LJ Speech and VCTK have been already provided.
# python preprocess.py --text_index 1 --filelists filelists/ljs_audio_text_train_filelist.txt filelists/ljs_audio_text_val_filelist.txt filelists/ljs_audio_text_test_filelist.txt 
# python preprocess.py --text_index 2 --filelists filelists/vctk_audio_sid_text_train_filelist.txt filelists/vctk_audio_sid_text_val_filelist.txt filelists/vctk_audio_sid_text_test_filelist.txt

Cara menjalankan (dry-run)

Model Forward Pass (Dry-Run)

 import torch
from models import SynthesizerTrn

net_g = SynthesizerTrn (
    n_vocab = 256 ,
    spec_channels = 80 , # <--- vits2 parameter (changed from 513 to 80)
    segment_size = 8192 ,
    inter_channels = 192 ,
    hidden_channels = 192 ,
    filter_channels = 768 ,
    n_heads = 2 ,
    n_layers = 6 ,
    kernel_size = 3 ,
    p_dropout = 0.1 ,
    resblock = "1" , 
    resblock_kernel_sizes = [ 3 , 7 , 11 ],
    resblock_dilation_sizes = [[ 1 , 3 , 5 ], [ 1 , 3 , 5 ], [ 1 , 3 , 5 ]],
    upsample_rates = [ 8 , 8 , 2 , 2 ],
    upsample_initial_channel = 512 ,
    upsample_kernel_sizes = [ 16 , 16 , 4 , 4 ],
    n_speakers = 0 ,
    gin_channels = 0 ,
    use_sdp = True , 
    use_transformer_flows = True , # <--- vits2 parameter
    # (choose from "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual")
    transformer_flow_type = "fft" , # <--- vits2 parameter 
    use_spk_conditioned_encoder = True , # <--- vits2 parameter
    use_noise_scaled_mas = True , # <--- vits2 parameter
    use_duration_discriminator = True , # <--- vits2 parameter
)

x = torch . LongTensor ([[ 1 , 2 , 3 ],[ 4 , 5 , 6 ]]) # token ids
x_lengths = torch . LongTensor ([ 3 , 2 ]) # token lengths
y = torch . randn ( 2 , 80 , 100 ) # mel spectrograms
y_lengths = torch . Tensor ([ 100 , 80 ]) # mel spectrogram lengths

net_g (
    x = x ,
    x_lengths = x_lengths ,
    y = y ,
    y_lengths = y_lengths ,
)

# calculate loss and backpropagate

Contoh pelatihan

 # LJ Speech
python train.py -c configs/vits2_ljs_nosdp.json -m ljs_base # no-sdp; (recommended)
python train.py -c configs/vits2_ljs_base.json -m ljs_base # with sdp;

# VCTK
python train_ms.py -c configs/vits2_vctk_base.json -m vctk_base

# for onnx export of trained models
python export_onnx.py --model-path= " G_64000.pth " --config-path= " config.json " --output= " vits2.onnx "
python infer_onnx.py --model= " vits2.onnx " --config-path= " config.json " --output-wav-path= " output.wav " --text= " hello world, how are you? "

Todos, fitur dan catatan

Prediktor Durasi (Gambar 1A)

Menambahkan diskriminator LSTM ke prediktor durasi.
Menambahkan kerugian permusuhan pada prediktor durasi. ("use_duration_discriminator" flag dalam file konfigurasi; default adalah "true")
Pencarian Alignment Monotonik dengan Noise Gaussian Ditambahkan; mungkin membutuhkan verifikasi ahli (Bagian 2.2)
Tambahkan "Use_noise_scaled_mas" bendera dalam file config. Pilih dari Benar atau Salah; memperbarui kebisingan saat pelatihan berdasarkan jumlah langkah dan tidak pernah naik di bawah 0,0
Perbarui model.py/train.py/train_ms.py
Perbarui file konfigurasi (vits2_vctk_base.json; vits2_ljs_base.json)
Perbarui kerugian di train.py dan train_ms.py

Blok transformator dalam aliran normalisasi (Gambar 1B)

Menambahkan blok transformator ke aliran normalisasi. Ada tiga jenis blok transformator: pra-konvolusi (implementasi saya), FFT (dari repo So-Vits-SVC) dan mono-layer.
Tambahkan "transformer_flow_type" bendera dalam file konfigurasi. Pilih dari "pre_conv", "fft", "mono_layer_inter_residual", "mono_layer_post_residual".
Menambahkan lapisan dan blok dalam model.py (residualCouplingTransformers
Tambahkan file konfigurasi (vits2_ljs_base.json; dapat dihidupkan menggunakan "use_transformer_flows" flag)

Encoder teks yang dikondisikan speaker (Gbr 1C)

Menambahkan speaker embedding ke encoder teks di model.py (textencoder; kompatibel ke belakang dengan vits)
Tambahkan file konfigurasi (vits2_ljs_base.json; dapat dihidupkan menggunakan "use_spk_conditioned_encoder" flag)

Encoder posterior Mel spectrogram (Bagian 3)

Menambahkan encoder posterior Mel spectrogram di train.py
Addded file konfigurasi baru (vits2_ljs_base.json; dapat dihidupkan menggunakan bendera "use_mel_posterior_encoder")
Diperbarui 'data_utils.py' untuk menggunakan flag "use_mel_posterior_encoder" untuk vits2

Skrip pelatihan

Menambahkan bendera Vits2 ke train.py (model speeaer tunggal)
Menambahkan bendera Vits2 ke train_ms.py (model multi-speaker)

Ekspor ONNX

Tambahkan dukungan ekspor ONNX.

Demo Gradio

Tambahkan Dukungan Demo Gradio.

Sebutan khusus

@erogol untuk umpan balik dan panduan cepat. (Silakan periksa repo Coquitts yang luar biasa).
@lexkoro untuk diskusi dan membantu dengan pelatihan prototipe.
@manmay-nakhashi untuk diskusi dan membantu dengan kode.
@athenasaurav karena menawarkan dukungan GPU untuk pelatihan.
@W11wo untuk dukungan ONNX.
@Subarasheese untuk gradio UI.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-20
ukuran 5.59MB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
pytorch image models

2024-11-03
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua