Unduh StyleTTS2 - Unduh Kode Sumber StyleTTS2

StyleTTS2

Kode Sumber AI

1.0.0

Unduh

Styletts 2: Menuju Teks-ke-Tingkat Manusia melalui Difusi Gaya dan Pelatihan Perselisihan dengan Model Bahasa Bicara yang Besar

Yinghao Aaron Li, Cong Han, Vinay S. Raghavan, Gavin Mischler, Nima Mesarani

Dalam makalah ini, kami menyajikan Styletts 2, model Text-to-Speech (TTS) yang memanfaatkan difusi gaya dan pelatihan permusuhan dengan model bahasa bicara yang besar (SLM) untuk mencapai sintesis TTS tingkat manusia. Styletts 2 berbeda dari pendahulunya dengan memodelkan gaya sebagai variabel acak laten melalui model difusi untuk menghasilkan gaya yang paling cocok untuk teks tanpa memerlukan ucapan referensi, mencapai difusi laten yang efisien sambil mendapat manfaat dari beragam sintesis pidato yang ditawarkan oleh model difusi. Selain itu, kami menggunakan SLM besar terlatih, seperti WAVLM, sebagai diskriminator dengan pemodelan durasi yang dapat dibedakan baru untuk pelatihan ujung-ke-ujung, menghasilkan peningkatan kealamian bicara. Styletts 2 melampaui rekaman manusia pada dataset LJSPEECH speaker tunggal dan mencocokkannya pada dataset VCTK multispeaker sebagaimana dinilai oleh penutur asli bahasa Inggris. Selain itu, ketika dilatih pada dataset Libitts, model kami mengungguli model yang tersedia untuk umum sebelumnya untuk adaptasi speaker nol-shot. Pekerjaan ini mencapai sintesis TTS tingkat manusia pertama pada dataset tunggal dan multispeaker, menunjukkan potensi difusi gaya dan pelatihan permusuhan dengan SLM besar.

Kertas: https://arxiv.org/abs/2306.07691

Sampel audio: https://styletts2.github.io/

Demo Online: Wajah Memeluk (Terima kasih @fakerybakery untuk demo online yang indah)

Todo

Kode Demo Pelatihan dan Inferensi untuk Model Speaker Tunggal (LJSPEECH)
Kode pelatihan uji untuk model multi-speaker (VCTK dan Liblitts)
Selesaikan kode demo untuk model multispeaker dan unggah model pra-terlatih
Tambahkan skrip finetuning untuk speaker baru dengan model multispeaker pra-terlatih basis
Perbaiki DDP (Accelerator) untuk train_second.py (saya telah mencoba semua yang saya bisa untuk memperbaikinya tetapi tidak berhasil, jadi jika Anda bersedia membantu, silakan lihat #7)

Prasyarat

Python> = 3.7
Klon Repositori ini:

git clone https://github.com/yl4579/StyleTTS2.git
cd StyleTTS2

Pasang persyaratan Python:

pip install -r requirements.txt

Di Windows Tambah:

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -U

Juga instal fonemizer dan espeak jika Anda ingin menjalankan demo:

pip install phonemizer
sudo apt-get install espeak-ng

Unduh dan ekstrak dataset LJSPEECH, unzip ke folder data dan meningkatkan data menjadi 24 kHz. Teks Aligner dan Pitch Extractor pra-terlatih dengan data 24 kHz, tetapi Anda dapat dengan mudah mengubah preprocessing dan melatihnya kembali menggunakan preprocessing Anda sendiri. Untuk Liblitts, Anda perlu menggabungkan Train-Clean-360 dengan Train-Clean-100 dan ganti nama folder Train-Clean-460 (lihat Val_List_Libritts.txt sebagai contoh).

Pelatihan

Pelatihan Tahap Pertama:

accelerate launch train_first.py --config_path ./Configs/config.yml

Pelatihan Tahap Kedua (versi DDP tidak berfungsi, jadi versi saat ini menggunakan DP, sekali lagi lihat #7 jika Anda ingin membantu) :

python train_second.py --config_path ./Configs/config.yml

Anda dapat menjalankan keduanya secara berurutan dan akan melatih tahap pertama dan kedua. Model akan disimpan dalam format "Epoch_1st_%05d.pth" dan "Epoch_2nd_%05d.pth". Pos pemeriksaan dan log tensorboard akan disimpan di log_dir .

Format daftar data harus filename.wav|transcription|speaker , lihat val_list.txt sebagai contoh. Label speaker diperlukan untuk model multi-speaker karena kita perlu sampel audio referensi untuk pelatihan model difusi gaya.

Konfigurasi Penting

Di config.yml, ada beberapa konfigurasi penting yang harus diurus:

OOD_data : Jalan untuk teks-teks di luar distribusi untuk pelatihan permusuhan SLM. Formatnya harus text|anything .
min_length : Panjang minimum teks ood untuk pelatihan. Ini untuk memastikan pidato yang disintesis memiliki panjang minimum.
max_len : Panjang audio maksimum untuk pelatihan. Unit adalah bingkai. Karena ukuran hop default adalah 300, satu bingkai sekitar 300 / 24000 (0,0125) detik. Menurunkan ini jika Anda menemukan masalah di luar memori.
multispeaker : Disetel ke true jika Anda ingin melatih model multispeaker. Ini diperlukan karena arsitektur Denoiser berbeda untuk model tunggal dan multispeaker.
batch_percentage : Ini untuk memastikan selama pelatihan permusuhan SLM tidak ada masalah di luar memori (OOM). Jika Anda mengalami masalah oom, harap atur angka yang lebih rendah untuk ini.

Modul pra-terlatih

Di folder utils, ada tiga model pra-terlatih:

Folder ASR : Ini berisi pelurus teks pra-terlatih, yang sudah dilatih sebelumnya pada bahasa Inggris (Libritts), Jepang (JVS), dan corpus Cina (Aishell). Ini bekerja dengan baik untuk sebagian besar bahasa lain tanpa penyesuaian, tetapi Anda selalu dapat melatih pelurus teks Anda sendiri dengan kode di sini: YL4579/AuxiliaryAsr.
Folder JDC : Ini berisi ekstraktor pitch pra-terlatih, yang hanya dilatih sebelumnya pada bahasa Inggris (Libitts) corpus saja. Namun, ini bekerja dengan baik untuk bahasa lain juga karena F0 tidak tergantung pada bahasa. Jika Anda ingin berlatih di Singing Corpus, disarankan untuk melatih ekstraktor pitch baru dengan kode di sini: YL4579/PitchExtractor.
Folder Plbert : Ini berisi model PL-Bert yang sudah terlatih, yang hanya dilatih sebelumnya pada bahasa Inggris (Wikipedia) corpus saja. Ini mungkin tidak bekerja dengan baik pada bahasa lain, jadi Anda perlu melatih PL-BERT yang berbeda untuk bahasa yang berbeda menggunakan repo di sini: YL4579/PL-BERT. Anda juga dapat menggunakan PL-Bert multibahasa yang mendukung 14 bahasa.

Masalah umum

Kehilangan menjadi NAN : Jika ini adalah tahap pertama, harap pastikan Anda tidak menggunakan presisi campuran, karena dapat menyebabkan kerugian menjadi NAN untuk beberapa set data tertentu ketika ukuran batch tidak diatur dengan benar (perlu lebih dari 16 untuk bekerja dengan baik). Untuk tahap kedua, silakan bereksperimen dengan ukuran batch yang berbeda, dengan ukuran batch yang lebih tinggi lebih mungkin menyebabkan nilai kerugian NAN. Kami merekomendasikan ukuran batch menjadi 16. Anda dapat merujuk pada masalah #10 dan #11 untuk lebih jelasnya.
Keluar dari memori : Harap gunakan batch_size yang lebih rendah atau max_len . Anda dapat merujuk pada masalah #10 untuk informasi lebih lanjut.
Dataset Non-Inggris : Anda dapat melatih bahasa apa pun yang Anda inginkan, tetapi Anda perlu menggunakan model PL-BTT yang sudah terlatih untuk bahasa itu. Kami memiliki PL-Bert multibahasa pra-terlatih yang mendukung 14 bahasa. Anda dapat merujuk ke YL4579/Styletts #10 dan #70 untuk beberapa contoh untuk berlatih di set data Cina.

Finetuning

Script dimodifikasi dari train_second.py yang menggunakan DP, karena DDP tidak berfungsi untuk train_second.py . Silakan lihat bagian tebal di atas jika Anda bersedia membantu dengan masalah ini.

python train_finetune.py --config_path ./Configs/config_ft.yml

Pastikan Anda memiliki pos pemeriksaan Libitts yang diunduh dan dibuka ritsleting di bawah folder. Konfigurasi default config_ft.yml finetunes di ljspeech dengan 1 jam data bicara (sekitar 1k sampel) untuk 50 zaman. Ini membutuhkan waktu sekitar 4 jam untuk menyelesaikan pada empat NVIDIA A100. Kualitasnya sedikit lebih buruk (mirip dengan NaturalSpeech di LJSPEECH) daripada model LJSPEECH yang dilatih dari awal dengan 24 jam data bicara, yang membutuhkan waktu sekitar 2,5 hari untuk menyelesaikan empat A100. Sampel dapat ditemukan di #65 (komentar).

Jika Anda menggunakan GPU tunggal (karena skrip tidak berfungsi dengan DDP) dan ingin menyimpan kecepatan pelatihan dan VRAM, Anda dapat melakukannya (terima kasih @korakoe karena membuat skrip di #100):

accelerate launch --mixed_precision=fp16 --num_processes=1 train_finetune_accelerate.py --config_path ./Configs/config_ft.yml

Masalah umum

@Kreevoz telah membuat catatan terperinci tentang masalah umum dalam finetuning, dengan saran dalam memaksimalkan kualitas audio: #81. Beberapa di antaranya juga berlaku untuk pelatihan dari awal. @Iieleven11 juga telah membuat pedoman untuk menyempurnakan: #128.

Keluar dari memori setelah joint_epoch : Ini kemungkinan karena RAM GPU Anda tidak cukup besar untuk menjalankan pelatihan permusuhan SLM. Anda mungkin melewatkannya tetapi kualitasnya bisa lebih buruk. Mengatur joint_epoch angka yang lebih besar daripada epochs dapat melewatkan pelatihan SLM Advatariral.

Kesimpulan

Silakan merujuk ke inference_ljspeech.ipynb (speaker tunggal) dan inference_libritts.ipynb (multi-speaker) untuk detailnya. Untuk Liblitts, Anda juga perlu mengunduh Reference_Audio.zip dan unzip di bawah demo sebelum menjalankan demo.

Styletts 2 pretrained di ljspeech corpus dalam 24 kHz dapat diunduh di https://huggingface.co/yl4579/styletts2-ljspeech/tree/main.
Model Styletts 2 pretrained di Liblitts dapat diunduh di https://huggingface.co/yl4579/styletts2-libritts/tree/main.

Anda dapat mengimpor Styletts 2 dan menjalankannya di kode Anda sendiri. Namun, inferensi tergantung pada paket berlisensi GPL, sehingga tidak termasuk langsung dalam repositori ini. Garpu berlisensi GPL memiliki skrip yang dapat diimpor, serta API streaming eksperimental, dll. Paket berlisensi mit sepenuhnya yang menggunakan Gruut (meskipun kualitas lebih rendah karena ketidaksesuaian antara fonemizer dan gruut) juga tersedia.

Sebelum menggunakan model pra-terlatih ini, Anda setuju untuk memberi tahu para pendengar bahwa sampel ucapan disintesis oleh model pra-terlatih, kecuali jika Anda memiliki izin untuk menggunakan suara yang Anda sintesis. Artinya, Anda setuju untuk hanya menggunakan suara -suara yang pembicara memberikan izin untuk mengkloning suara mereka, baik secara langsung atau dengan lisensi sebelum membuat suara yang disintesis publik, atau Anda harus mengumumkan secara terbuka bahwa suara -suara ini disintesis jika Anda tidak memiliki izin untuk menggunakan suara -suara ini.

Masalah umum

Kebisingan latar belakang bernada tinggi : Ini disebabkan oleh perbedaan float numerik pada GPU yang lebih tua. Untuk detail lebih lanjut, silakan merujuk ke masalah #13. Pada dasarnya, Anda perlu menggunakan GPU yang lebih modern atau melakukan inferensi pada CPU.
Lisensi Model Pra-Terlatih : Anda hanya perlu mematuhi aturan di atas jika Anda menggunakan model pra-terlatih dan suara-suara tidak ada dalam set pelatihan, yaitu, speaker referensi Anda bukan dari dataset akses terbuka apa pun. Untuk detail lebih lanjut dari aturan untuk menggunakan model pra-terlatih, silakan lihat #37.

Referensi

Archinetai/audio-difusi-pytorch
jik876/hifi-gan
rishikksh20/iStftnet-pytorch
Nii-yamagishilab/Project-nn-pytorch-scripts/Project/01-NSF

Lisensi

Kode: Lisensi MIT

Model pra-terlatih: Sebelum menggunakan model pra-terlatih ini, Anda setuju untuk memberi tahu para pendengar bahwa sampel ucapan disintesis oleh model pra-terlatih, kecuali jika Anda memiliki izin untuk menggunakan suara yang Anda sintesis. Artinya, Anda setuju untuk hanya menggunakan suara -suara yang pembicara memberikan izin untuk mengkloning suara mereka, baik secara langsung atau dengan lisensi sebelum membuat suara yang disintesis publik, atau Anda harus mengumumkan secara terbuka bahwa suara -suara ini disintesis jika Anda tidak memiliki izin untuk menggunakan suara -suara ini.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 133.9MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua