Download Parallel Tacotron2 - Unduh Kode Sumber Parallel Tacotron2

Parallel Tacotron2

Kode Sumber AI

1.0.0

Unduh

Tacotron2 paralel

Implementasi Pytorch dari Google Paralel Tacotron 2: Model TTS Neural Non-Autoregressive dengan pemodelan durasi yang dapat dibedakan

Pembaruan

2021.05.25: Only the soft-DTW remains the last hurdle! Mengikuti saran penulis tentang implementasi, saya mengambil beberapa tes pada setiap modul satu per satu di bawah sinyal durasi yang diawasi dengan kehilangan L1 (FastSpeech2). Sampai sekarang, saya dapat mengonfirmasi bahwa semua modul kecuali Soft-DTW berfungsi dengan baik sebagai berikut (spektrogram yang disintesis, spektrogram GT, penyelarasan residual, dan W dari unggulan yang dipelajari dari atas ke bawah).
Untuk detailnya, silakan periksa log komit terbaru dan bagian masalah implementasi yang diperbarui. Anda juga dapat menemukan percobaan yang sedang berlangsung di https://github.com/keonlee9420/fastspeech2/commits/ptaco2.
2021.05.15: Implementasi dilakukan. Pemeriksaan kewarasan tentang pelatihan dan kesimpulan. Tapi tetap saja modelnya tidak bisa bertemu.
I'm waiting for your contribution! Harap beri tahu saya jika Anda menemukan kesalahan dalam implementasi saya atau saran berharga untuk melatih model dengan sukses. Lihat bagian Masalah Implementasi.

Pelatihan

Persyaratan

Anda dapat menginstal dependensi Python dengan
```
pip3 install -r requirements.txt
```
Instal Fairseq (Dokumen Resmi, GitHub) untuk memanfaatkan LConvBlock . Silakan periksa #5 untuk menyelesaikan masalah apa pun saat menginstal.

Kumpulan data

Dataset yang didukung:

LJSPEECH: Dataset bahasa Inggris speaker tunggal terdiri dari 13100 klip audio pendek dari pembicara pembicara wanita bagian dari 7 buku non-fiksi, total sekitar 24 jam.
(akan ditambahkan lebih banyak)

Preprocessing

Setelah mengunduh dataset, atur corpus_path di preprocess.yaml dan jalankan skrip persiapan:

 python3 prepare_data.py config/LJSpeech/preprocess.yaml

Kemudian, jalankan skrip preprocessing:

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Pelatihan

Latih model Anda dengan

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Model belum bisa bertemu. Saya debugging tetapi akan ditingkatkan jika kontribusi Anda yang luar biasa siap!

Kesimpulan

Untuk satu kesimpulan, jalankan

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 900000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Ucapan yang dihasilkan akan disimpan dalam output/result/ .

Inferensi Batch

Inferensi batch juga didukung, coba

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step 900000 --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Untuk mensintesis semua ucapan di preprocessed_data/LJSpeech/val.txt .

Tensorboard

Menggunakan

 tensorboard --logdir output/log/LJSpeech

untuk melayani Tensorboard di Localhost Anda.

Masalah Implementasi

Secara keseluruhan, normalisasi atau aktivasi, yang tidak disarankan dalam kertas asli, diatur secara memadai untuk mencegah nilai NAN (gradien) pada perhitungan ke depan dan ke belakang. (NAN menunjukkan bahwa ada sesuatu yang salah dalam jaringan)

Encoder Teks

Gunakan FFTBlock fastspeech2 untuk blok transformator encoder teks.
Gunakan dropout 0.2 untuk ConvBlock encoder teks.
Untuk memulihkan "mesin normalisasi eksklusif",
- Terapkan normalisasi teks yang sama seperti di FastSpeech2.
- Menerapkan fungsi grapheme_to_phoneme . (Lihat ./text/ init ).

Encoder residual

Gunakan 80 channels Mel-Spectrogrom bukan 128-bin .
Embedding posisi sinusoidal reguler digunakan dalam level bingkai alih-alih kombinasi tiga embedding posisi dalam tacotron paralel. Karena model sepenuhnya tergantung pada pembelajaran yang tidak diawasi untuk posisi tersebut, pilihan ini bisa menjadi alasan gagal pada model konverge.

Durasi prediktor & upampling yang dipelajari

Gunakan nn.SiLU() untuk aktivasi swish.
Saat memperoleh W dan C , operasi gabungan diterapkan di antara S , E , dan V setelah domain bingkai (domain T) dari V

Decoder

Gunakan LConvBlock dan embedding posisi sinusoidal biasa.
Iteratif Mel-Spectrogram diproyeksikan oleh lapisan linier.
Terapkan nn.Tanh() untuk setiap output LConvBLock (mengikuti pola aktivasi bagian dekoder di fastspeech2).

Kehilangan

Gunakan optimasi & penjadwal FastSpeech2 (yang dari perhatian adalah semua yang Anda butuhkan seperti yang dijelaskan dalam kertas asli).
Dasar pada Pytorch-softdtw-cuda (POST) untuk soft-DTW.
1. Menerapkan soft-DTW yang disesuaikan dalam model/soft_dtw_cuda.py , yang mencerminkan rekursi yang disarankan dalam kertas asli.
2. Dalam Soft-DTW asli, kerugian akhir tidak diasumsikan dan oleh karena itu hanya E yang dihitung. Tetapi dipekerjakan sebagai fungsi kerugian, produk Jacobian ditambahkan untuk mengembalikan target target input R WRT X .
3. Saat ini, ukuran batch maksimum adalah 8 dalam 24Gib GPU (Titan RTX) karena masalah kompleksitas ruang dalam kehilangan-DTW soft-DTW.
  - Dalam makalah asli, operasi pita diagonal yang dapat dibedakan khusus diimplementasikan dan digunakan untuk menyelesaikan kompleksitas O (T^2), tetapi bagian ini belum dieksplorasi dalam implementasi saat ini.

Kutipan

 @misc{lee2021parallel_tacotron2,
  author = {Lee, Keon},
  title = {Parallel-Tacotron2},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Parallel-Tacotron2}}
}

Referensi

Fastspeech2 Ming024 (lebih dari 2021.02.26 ver.)
TACOTRON Paralel: TTS Non-Autoregresif dan Terkendali
Parallel Tacotron 2: Model TTS Neural Non-Autoregressive dengan pemodelan durasi yang dapat dibedakan

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-20
ukuran 101.63MB
Berasal dari Github

Aplikasi Terkait

golang parallel download with accept ranges

2024-11-09
GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua