Unduh StyleSpeech - Unduh Kode Sumber StyleSpeech

StyleSpeech

Kode Sumber AI

v1.0.2

Unduh

Stylespeech - Implementasi Pytorch

Implementasi PyTorch dari meta-stylespeech: multi-speaker adaptif text-to-speech generasi.

Cabang

Stylespeech (cabang naive )
Meta-Stylespeech (Cabang main )

QuickStart

Dependensi

Anda dapat menginstal dependensi Python dengan

 pip3 install -r requirements.txt

Kesimpulan

Anda harus mengunduh model pretrained dan memasukkannya ke dalam output/ckpt/LibriTTS_meta_learner/ .

Untuk TTS multi-speaker bahasa Inggris, jalankan

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --ref_audio path/to/reference_audio.wav --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Ucapan yang dihasilkan akan dimasukkan ke dalam output/result/ . Pidato yang disintesis Anda akan memiliki gaya ref_audio .

Inferensi Batch

Inferensi batch juga didukung, coba

 python3 synthesize.py --source preprocessed_data/LibriTTS/val.txt --restore_step 200000 --mode batch -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Untuk mensintesis semua ucapan di preprocessed_data/LibriTTS/val.txt . Ini dapat dilihat sebagai rekonstruksi dataset validasi yang merujuk pada diri mereka sendiri untuk gaya referensi.

Kemampuan kontrol

Laju pitch/volume/berbicara dari ucapan yang disintesis dapat dikontrol dengan menentukan rasio pitch/energi/durasi yang diinginkan. Misalnya, seseorang dapat meningkatkan tingkat berbicara sebesar 20 % dan mengurangi volume sebesar 20 % dengan

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 200000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml --duration_control 0.8 --energy_control 0.8

Perhatikan bahwa kemampuan kontrol berasal dari FastSpeech2 dan bukan minat vital dari Stylespeech. Silakan merujuk ke styler [demo, kode] untuk pengendalian masing -masing faktor gaya.

Pelatihan

Kumpulan data

Dataset yang didukung adalah

Libritts: Dataset bahasa Inggris multi-pembicara yang berisi 585 jam pidato oleh 2456 penutur.
(akan ditambahkan lebih banyak)

Preprocessing

Berlari

 python3 prepare_align.py config/LibriTTS/preprocess.yaml

untuk beberapa persiapan.

Untuk penyelarasan paksa, Montreal memaksa Aligner (MFA) digunakan untuk mendapatkan keberpihakan antara ucapan dan urutan fonem. Penyelarasan yang telah diekstraksi untuk set data disediakan di sini. Anda harus membuka ritsleting file di preprocessed_data/LibriTTS/TextGrid/ . Bergantian, Anda dapat menjalankan pelurus sendiri.

Setelah itu, jalankan skrip preprocessing dengan

 python3 preprocess.py config/LibriTTS/preprocess.yaml

Pelatihan

Latih model Anda dengan

 python3 train.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

Seperti yang dijelaskan dalam makalah, skrip akan mulai dari pra-pelatihan model naif sampai langkah meta_learning_warmup dan kemudian meta-train model untuk langkah-langkah tambahan melalui pelatihan episodik.

Tensorboard

Menggunakan

 tensorboard --logdir output/log/LibriTTS

untuk melayani Tensorboard di Localhost Anda. Kurva kehilangan, sintesis mel-spectrograms, dan audio ditampilkan.

Masalah Implementasi

Gunakan laju pengambilan sampel 22050Hz , bukan 16kHz .
Tambahkan satu lapisan yang sepenuhnya terhubung pada awal encoder MEL-gaya ke input up-spectrogram dari 80 hingga 128 .
Ukuran model termasuk meta-learner adalah 28.197M .
Gunakan ukuran maksimum 16 batch pada pelatihan, bukan 48 atau 20 terutama karena kurangnya kapasitas memori dengan 24Gib Titan-RTX tunggal. Ini dapat dicapai dengan skrip berikut untuk memfilter data lebih lama dari max_seq_len :
```
 python3 filelist_filtering.py -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml
```
Ini akan menghasilkan train_filtered.txt di lokasi yang sama dari train.txt .
Karena total ukuran batch menurun, jumlah langkah pelatihan dua kali lipat dibandingkan dengan kertas asli.
Gunakan HiFi-gan bukan Melgan untuk vokoding.

Kutipan

 @misc{lee2021stylespeech,
  author = {Lee, Keon},
  title = {StyleSpeech},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/StyleSpeech}}
}

Referensi

Meta-Stylespeech: Generasi Teks-ke-Teks Adaptif Multi-Speaker
Arsitektur generator berbasis gaya untuk jaringan permusuhan generatif
Jaringan pencocokan untuk satu bidikan belajar
Jaringan prototipikal untuk pembelajaran beberapa shot
Tadam: Metrik Adaptif Tergantung Tugas Untuk Peningkatan Pembelajaran Beberapa-Tembak
Fastspeech2 Ming024

Memperluas

Informasi Tambahan

Versi v1.0.2
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-20
ukuran 111.54MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua