Unduh TTS papers - Unduh Kode Sumber TTS papers

TTS papers

Kode Sumber AI

1.0.0

Unduh

(Jangan ragu untuk menyarankan perubahan)

Dokumen

Gabungan representasi fonem dan char: https://arxiv.org/pdf/1811.07240.pdf
Pembelajaran Transfer Tacotron: https://arxiv.org/pdf/1904.06508.pdf
Waktu fonem dari perhatian: https://ieexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8683827
Pelatihan Semi-Dijelas untuk Meningkatkan Efisiensi Data dalam Sintesis Pidato End-to-End-https://arxiv.org/pdf/1808.10128.pdf
Mendengarkan Saat Berbicara: Rantai Pidato oleh Deep Learning - https://arxiv.org/pdf/1707.04879.pdf
Kehilangan end-to-end yang dihasilkan untuk verifikasi speaker: https://arxiv.org/pdf/1710.10467.pdf
ES-TACOTRON2: multi-tugas Tacotron 2 dengan perkiraan jaringan pra-terlatih untuk mengurangi masalah kelebihan kelebihan: https://www.mdpi.com/2078-2489/10/4/131/pdf
- Melawan kelembaban berlebihan
FastSpeech: https://arxiv.org/pdf/1905.09263.pdf
Belajar Bernyanyi Dari Pidato: https://arxiv.org/pdf/1912.10128.pdf
TTS-GAN: https://arxiv.org/pdf/1909.11646.pdf
- Mereka menggunakan durasi dan fitur linguistik untuk tts en2en.
- Dekat dengan kinerja Wavenet.
Durian: https://arxiv.org/pdf/1909.01700.pdf
- Durasi Tacotron yang sadar
Melnet: https://arxiv.org/abs/1906.01083
Aligntts: https://arxiv.org/pdf/2003.01950.pdf
Dekomposisi ucapan tanpa pengawasan melalui kemacetan informasi triple
- https://arxiv.org/pdf/2004.11284.pdf
- https://anonymous0818.github.io/
Flowtron: https://arxiv.org/pdf/2005.05957.pdf
- Aliran Autoregressive terbalik pada arsitektur seperti tacotron
- Waveglow sebagai Vocoder.
- Gaya ucapan menanamkan dengan campuran model Gaussian.
- Modelnya besar dan lebih tinggi dari vanilla tacotron
- Nilai MOS sangat baik daripada implementasi tacotron publik.
Sistem teks-ke-speech yang dapat dilatih secara efisien berdasarkan jaringan konvolusional yang dalam dengan perhatian terpandu: https://arxiv.org/pdf/1710.08969.pdf

Ringkasan yang luas

END-to-END TEXT-to-speech: http://arxiv.org/abs/2006.03575 (klik untuk memperluas)

end2end feed-forward tts learning.
Penyelarasan karakter telah dilakukan dengan modul Aligner yang terpisah.
Aligner memprediksi panjang masing -masing karakter. - Lokasi tengah char ditemukan Wrt total panjang karakter sebelumnya. - Posisi char diinterpolasi dengan jendela Gaussian WRT panjang audio yang sebenarnya.
- Output audio dihitung dalam domain mu-hukum. (Saya tidak punya alasan untuk ini)
- Gunakan hanya 2 Secs Audio Windows untuk Traning.
- Generator Gan-TTS digunakan untuk menghasilkan sinyal audio.
- RWD digunakan sebagai diskriminator tingkat audio.
- MELD: Mereka menggunakan arsitektur Biggan-Deep sebagai diskriminator tingkat spektrogram yang mengatur masalah sebagai rekonstruksi gambar.
- Kehilangan spektrogram
  - Menggunakan hanya umpan balik permusuhan tidak cukup untuk mempelajari keberpihakan char. Mereka menggunakan kerugian spektrogram b/w yang diprediksi spektrogram dan spesifikasi kebenaran tanah.
  - Perhatikan bahwa model memprediksi sinyal audio. Spektrogram di atas dihitung dari audio yang dihasilkan.
  - Pembungkus waktu dinamis digunakan untuk menghitung penyelarasan biaya minimal b/w yang dihasilkan spektrogram dan kebenaran tanah.
  - Ini melibatkan pendekatan pemrograman yang dinamis untuk menemukan penyelarasan biaya minimal.
- Kehilangan panjang aligner digunakan untuk menghukum pelurus karena memprediksi berbeda dari panjang audio nyata.
- Mereka melatih model dengan dataset multi speaker tetapi melaporkan hasil pada speaker berkinerja terbaik.
- Studi Ablasi Pentingnya masing -masing komponen: (panjang dan spektrogramloss)> rwd> meld> fonem> multiseakerDataSet.
- 2 sen saya: Ini adalah model umpan ke depan yang menyediakan sintesis ucapan akhir-2 tanpa perlu melatih model vocoder yang terpisah. Namun, ini adalah model yang sangat rumit dengan banyak hiperparameter dan detail implementasi. Juga hasil akhirnya tidak dekat dengan keadaan seni. Saya pikir kita perlu menemukan algoritma spesifik untuk mempelajari keberpihakan karakter yang akan mengurangi kebutuhan tunning kombinasi algoritma yang berbeda.

Pidato cepat2: http://arxiv.org/abs/2006.04558 (klik untuk memperluas)

Gunakan durasi fonem yang dihasilkan oleh MFA sebagai label untuk melatih regulator panjang.
Mereka menggunakan frame level f0 dan l2 spektrogram norma (informasi varians) sebagai fitur tambahan.
Modul Prediktor Varians memprediksi informasi varians pada waktu inferensi.
Peningkatan hasil studi ablasi: model <model + l2_norm <model + l2_norm + f0

Glow-tts: https://arxiv.org/pdf/2005.11129.pdf (klik untuk memperluas)

Gunakan pencarian penyelarasan monotonik untuk mempelajari teks dan spektrogram B/W Alignment
Penyelarasan ini digunakan untuk melatih prediktor durasi untuk digunakan pada inferensi.
Encoder memetakan setiap karakter ke distribusi Gaussian.
Decoder Maps Setiap bingkai spektrogram ke vektor laten menggunakan aliran normalisasi (lapisan cahaya)
Output encoder dan dekoder disejajarkan dengan MAS.
Pada setiap iterasi terlebih dahulu penyelarasan yang paling mungkin ditemukan oleh MAS dan penyelarasan ini digunakan untuk memperbarui parameter mode.
Prediktor durasi dilatih untuk memprediksi jumlah bingkai spektrogram untuk setiap karakter.
Pada inferensi hanya prediktor durasi yang digunakan sebagai ganti mas
Encoder memiliki arsitektur transformator TTS dengan 2 pembaruan
Alih -alih pengkodean posisi absolut, mereka menggunakan pengkodean posisi yang realtif.
Mereka juga menggunakan koneksi residu untuk prenet enkoder.
Decoder memiliki arsitektur yang sama dengan model cahaya.
Mereka melatih model tunggal dan multi-speaker.
Ini ditunjukkan secara eksperimental, GLOW-TTS lebih kuat terhadap kalimat panjang dibandingkan dengan Tacotron2 asli
15x lebih cepat dari tacotron2 saat inferensi
2 sen saya: Sampel mereka terdengar tidak sealami Tacotron. Saya percaya model perhatian normal masih menghasilkan lebih banyak ucapan alami karena perhatian belajar memetakan karakter untuk memodelkan output secara langsung. Namun, menggunakan GLOW-TTS mungkin merupakan alternatif yang baik untuk dataset keras.
Sampel: https://github.com/jaywalnut310/glow-tts
Repositori: https://github.com/jaywalnut310/glow-tts

Non-autoregressive Neural Text-to-speech: http://arxiv.org/abs/1905.08459 (klik untuk memperluas)

Derivasi model suara dalam 3 menggunakan lapisan konvolusional non-kausal.
Paradigma guru-siswa untuk melatih siswa Annon-Autoregressive dengan ganda perhatian dari model guru autoregresif.
Guru digunakan untuk menghasilkan keberpihakan teks-ke-spektrogram untuk digunakan oleh model siswa.
Model ini dilatih dengan dua fungsi kerugian untuk penyelarasan perhatian dan pembuatan spektrogram.
Blok Multi Attention memperbaiki lapisan perataan demi perhatian.
Siswa menggunakan perhatian produk DOT dengan kueri, kunci dan vektor nilai. Kueri hanyalah vektor pengkodean positinal. Kunci dan nilainya adalah output encoder.
Model yang diusulkan sangat terkait dengan pengkodean posisi yang juga bergantung pada nilai konstan yang berbeda.

Konsistensi Decoder Ganda: https://erogol.com/solving-attention-problems-of-tts-models-with-double-decoder-consistency (klik untuk memperluas)

Model ini menggunakan arsitektur seperti tacotron tetapi dengan 2 decoder dan postnet.
DDC menggunakan dua decoder sinkron menggunakan laju reduksi yang berbeda.
Decoder menggunakan tingkat reduksi yang berbeda sehingga mereka menghitung output dalam granularitas yang berbeda dan mempelajari berbagai aspek data input.
Model ini menggunakan konsistensi antara kedua decoder ini untuk meningkatkan ketahanan penyelarasan teks-ke-spektrogram yang dipelajari.
Model ini juga menerapkan penyempurnaan pada output dekoder akhir dengan menerapkan postnet secara iteratif beberapa kali.
DDC menggunakan normalisasi batch dalam modul Prenet dan menjatuhkan lapisan putus sekolah.
DDC menggunakan pelatihan bertahap untuk mengurangi total waktu pelatihan.
Kami menggunakan generator Melgan multi-band sebagai vokoder yang dilatih dengan beberapa diskriminator jendela acak secara berbeda dari karya aslinya.
Kami dapat melatih model DDC hanya dalam 2 hari dengan GPU tunggal dan model terakhir dapat menghasilkan lebih cepat daripada pidato real-time pada CPU. Halaman demo: https://erogol.github.io/ddc-samples/ kode: https://github.com/mozilla/tts

Parallel Tacotron2: http://arxiv.org/abs/2103.14574 (klik untuk memperluas)

Tidak memerlukan informasi durasi eksternal.
Memecahkan masalah penyelarasan antara spektrogram nyata dan kebenaran-kebenaran oleh kehilangan-DTW soft-DTW.
Durasi yang diprediksi dikonversi menjadi penyelarasan dengan fungsi konversi yang dipelajari, bukan regulator panjang, untuk menyelesaikan masalah pembulatan.
Mempelajari peta perhatian atas "kisi batas token" yang dihitung dari durasi yang diprediksi.
Decoder dibangun di atas blok "konvolusi ringan" 6.
VAE digunakan untuk memproyeksikan spektrogram input ke fitur laten dan digabungkan dengan embeddings karakterr sebagai input ke jaringan.
Soft-DTW intensif secara komputasi karena menghitung perbedaan berpasangan untuk semua bingkai spektrogram. Mereka mengontraknya dengan jendela diagonal tertentu untuk mengurangi overhead.
Tujuan durasi akhir adalah jumlah kehilangan durasi, kehilangan VAE dan kehilangan spektrogram.
Mereka hanya menggunakan set data hak milik untuk eksperimen?
Mencapai MOS yang sama dengan model Tacotron2 dan mengungguli paraleltacotron.
Halaman demo : https://google.github.io/tacotron/publications/parallel_tacotron_2/index.html
Kode : sejauh ini tidak ada kode

Wavegrad2: https://arxiv.org/pdf/2106.09660.pdf (klik untuk memperluas)

Ini menghitung bentuk gelombang mentah langsung dari urutan fonem.
Model Encoder seperti Tacotron2 digunakan untuk menghitung representasi tersembunyi dari fonem.
Tacotron non-perhatian seperti prediktor durasi lunak untuk menyelaraskan representasi tersembunyi dengan output.
Mereka memperluas representasi tersembunyi dengan durasi yang diprediksi dan mencicipi jendela tertentu untuk dikonversi ke bentuk gelombang.
Mereka menjelajahi berbagai ukuran jendela di antara 64 dan 256 frame yang sesuai dengan 0,8 dan 3,2 detik pidato. Mereka menemukan bahwa yang lebih besar adalah yang lebih baik.
Halaman demo : Tidak ada sejauh ini
Kode : sejauh ini tidak ada kode

Kertas multi-speaker

Pelatihan Multi-Speaker Sistem Teks-Untuk-Berpekatan Menggunakan Speaker-Imbalanced Speech Corpora-https://arxiv.org/abs/1904.00771
Deep Voice 2-https://papers.nips.cc/paper/6889-deep-voice-2-multi-speaker-neural-text-tpeech.pdf
Contoh TTS adaptif yang efisien - https://openreview.net/pdf?id=rkzjuoacfx
- Pendekatan embedding wavenet + speaker
Loop Suara - https://arxiv.org/abs/1707.06588
Pemodelan Ruang Laten Multi -Speaker untuk Meningkatkan TTS Neural TTS mendaftarkan speaker baru dan meningkatkan suara premium - https://arxiv.org/pdf/1812.05253.pdf
Transfer pembelajaran dari verifikasi speaker ke sintesis teks-ke-speech multispeaker-https://arxiv.org/pdf/1806.04558.pdf
Memasang speaker baru berdasarkan sampel pendek yang belum ditranskripsikan - https://arxiv.org/pdf/1802.06984.pdf
Kehilangan end-to-end umum untuk verifikasi speaker-https://arxiv.org/abs/1710.10467

Ringkasan yang luas

Pembelajaran Semi-Dijelas untuk Sintesis Teks-Untuk-Pidato Multi-Speaker Menggunakan Representasi Bicara Diskrit: http://arxiv.org/abs/2005.08024

Latih model TTS multi-speaker dengan data berpasangan hanya satu jam (penyelarasan teks-ke-suara) dan lebih banyak data yang tidak berpasangan (hanya voide).
Ini mempelajari buku kode dengan setiap kata kode sesuai dengan satu fonem.
Buku kode diselaraskan dengan fonem menggunakan data berpasangan dan algoritma CTC.
Buku kode ini berfungsi seperti proxy untuk secara implisit memperkirakan urutan fonem dari data yang tidak berpasangan.
Mereka menumpuk model Tacotron2 di atas untuk melakukan TTS menggunakan embeddings kata kode yang dihasilkan oleh bagian awal model.
Mereka mengalahkan metode benchmark dalam pengaturan data berpasangan selama 1 jam.
Mereka tidak melaporkan hasil data berpasangan penuh.
Mereka tidak memiliki studi ablasi yang baik yang bisa menarik untuk melihat bagaimana berbagai bagian model berkontribusi pada kinerja.
Mereka menggunakan Griffin-Lim sebagai vokoder sehingga ada ruang untuk perbaikan.

Halaman demo: https://ttaoretw.github.io/mulpkr-semi-tts/demo.html
Kode: https://github.com/ttaoretw/semi-tts gambar

Attentron: beberapa shot teks-ke-speech mengeksploitasi panjang variabel berbasis perhatian embedding: https://arxiv.org/abs/2005.08484

Gunakan dua encoder untuk mempelajari fitur tergantung speaker.
Encoder kasar mempelajari vektor embedding speaker global berdasarkan spektrogram referensi yang disediakan.
Encoder halus mempelajari embedding panjang variabel menjaga dimensi temporal bekerja sama dengan modul perhatian.
Perhatian memilih bingkai spektrogram referensi penting untuk mensintesis ucapan target.
Pra-Pelatihan Model dengan satu dataset speaker pertama (ljspeech untuk 30K iters.)
Fine-tune model dengan dataset multi-speaker. (VCTK untuk 70K iters.)
Ini mencapai metrik yang sedikit lebih baik dibandingkan dengan menggunakan x-vektor dari model klasifikasi speaker dan encoder audio referensi berbasis VAE.

Halaman demo: https://hyperconnect.github.io/attentron/
gambar gambar

Menuju Universal Text-to-speech: http://www.interspeech2020.org/uploadfile/pdf/wed-3-4-3.pdf

Kerangka kerja untuk urutan untuk urutan multi-bahasa TTS
Model ini dilatih dengan dataset yang sangat besar dan sangat tidak seimbang.
Model ini dapat mempelajari bahasa baru dengan 6 menit dan pembicara baru dengan 20 detik data setelah pelatihan awal.
Model Architecture adalah jaringan encoder-decoder berbasis transformator dengan jaringan speaker dan jaringan bahasa untuk pembicara dan konditinoning bahasa. Output dari jaringan ini digabungkan dengan output enkoder.
Jaringan pengkondisian mengambil vektor satu-panas yang mewakili pembicara atau ID bahasa dan memproyeksikannya ke representasi pengkondisian.
Mereka menggunakan vocoder Wavenet untuk mengonversi prediksi Mel-spectrograms ke output bentuk gelombang.
Mereka menggunakan input fonem yang tergantung pada bahasa yang tidak dibagikan di antara bahasa.
Mereka mencicipi setiap batch berdasarkan frekuensi terbalik dari setiap bahasa dalam dataset. Dengan demikian setiap batch pelatihan memiliki distribusi seragam melalui bahasa, mengurangi ketidakseimbangan bahasa dalam dataset pelatihan.
Untuk mempelajari penutur/bahasa baru, mereka menyempurnakan model encoder-decoder dengan jaringan pengkondisian. Mereka tidak melatih model Wavenet.
Mereka menggunakan rekaman profesional 1250 jam dari 50 bahasa untuk pelatihan.
Mereka menggunakan laju pengambilan sampel 16kHz untuk semua sampel audio dan memotong keheningan di awal dan akhir setiap klip.
Mereka menggunakan 4 V100 GPU untuk pelatihan tetapi mereka tidak menyebutkan berapa lama mereka melatih model.
Hasilnya menunjukkan bahwa model pembicara tunggal lebih baik daripada pendekatan yang diusulkan dalam metrik MOS.
Juga menggunakan jaringan pengkondisian adalah penting untuk bahasa-bahasa ekor panjang dalam dataset karena mereka meningkatkan metrik MOS untuk mereka tetapi merusak kinerja untuk bahasa sumber daya tinggi.
Ketika mereka menambahkan speaker baru, mereka mengamati bahwa menggunakan lebih dari 5 menit data menurunkan kinerja model. Mereka mengklaim bahwa karena rekaman ini tidak sebersih rekaman asli, menggunakan lebih banyak dari mereka mempengaruhi kinerja umum model.
Model multi-bahasa mampu berlatih hanya dengan 6 menit data untuk speaker dan bahasa baru sedangkan model pembicara tunggal membutuhkan 3 jam untuk berlatih dan bahkan tidak dapat mencapai nilai MOS yang serupa dengan model multi-bahasa 6 menit.

gambar gambar

Adaspeech: Teks Adaptif ke Pidato untuk Suara Kustom: https://openreview.net/pdf?id=drynvt7gg4l

Mereka mengusulkan sistem yang dapat beradaptasi dengan sifat akustik input yang berbeda dari pengguna dan menggunakan jumlah minimum parameter untuk mencapai ini.
Arsitektur utama didasarkan pada model FastSpeech2 yang menggunakan prediktor pitch dan varians untuk mempelajari granularitas yang lebih baik dari pidato input.
Mereka menggunakan 3 jaringan pengkondisian tambahan.
Tingkat ucapan. Dibutuhkan Mel-Spectrogram dari pidato referensi sebagai input.
Tingkat fonem. Dibutuhkan level fonem Mel-spectrograms sebagai input dan menghitung vektor pengkondisian level fonem. Mel-spectrogram tingkat fonem dihitung dengan mengambil bingkai spektrogram rata-rata dalam durasi setiap fonem.
Level fonem 2. Dibutuhkan output enkoder fonem sebagai input. Ini berbeda dari jaringan di atas dengan hanya menggunakan informasi fonem tanpa melihat spektrogram.
Semua jaringan pengkondisian ini dan FastSpeech2 tulang belakang menggunakan lapisan normalisasi lapisan.
Normalisasi lapisan bersyarat. Mereka mengusulkan penyempurnaan hanya skala dan parameter bias dari setiap lapisan lapisan normalisasi ketika model disesuaikan untuk speaker baru. Mereka melatih modul pengkondisian speaker untuk setiap lapisan lapisan norma yang menghasilkan skala dan nilai bias. (Mereka menggunakan satu modul pengkondisian speaker per blok transformator.)
Ini berarti bahwa Anda hanya menyimpan modul pengkondisian speaker untuk setiap pembicara baru dan memprediksi skala dan nilai bias pada inferensi saat Anda menjaga sisa model yang sama.
Dalam percobaan, mereka melatih pra-kereta model pada dataset Libitts dan menyempurnakannya dengan VCTK dan LJSPEECH
Hasilnya menunjukkan bahwa menggunakan normalisasi lapisan bersyarat mencapai lebih baik daripada 2 baseline mereka yang hanya menggunakan embedding speaker dan decoder network fine-tunning.
Studi ablasi mereka menunjukkan bahwa bagian paling signifikan dari model ini adalah jaringan "level fonem" diikuti oleh normalisasi lapisan bersyarat dan jaringan "tingkat ucapan" dalam suatu urutan.
Salah satu sisi penting dari makalah ini adalah bahwa hampir tidak ada perbandingan dengan literatur dan membuat hasil lebih sulit untuk dinilai secara objektif.

Halaman demo: https://speechresearch.github.io/adaspeech/
gambar gambar gambar gambar gambar gambar

Perhatian

Lokasi-Relatif Mekanisme Perhatian untuk Sintesis Long-Formspeech yang kuat-https://arxiv.org/pdf/1910.10288.pdf

Vocoders

Melgan: https://arxiv.org/pdf/1910.06711.pdf
Parallelwavegan: https://arxiv.org/pdf/1910.11480.pdf
- Kehilangan STFT multi skala
- ~ Parameter model 1M (sangat kecil)
- Sedikit lebih buruk dari Wavernn
Meningkatkan fftnet
- https://www.okamotocamera.com/slt_2018.pdff
- https://www.okamotocamera.com/slt_2018.pdf
Fftnet
- https://gfx.cs.princeton.edu/pubs/jin_2018_far/clips/clips.php
- https://gfx.cs.princeton.edu/pubs/jin_2018_far/fftnet-jin2018.pdf
Rekonstruksi Bentuk Gelombang Bicara Menggunakan Convolutional NeuralNetworks dengan Noise dan Input Berkala
- 150.162.46.34:8080/icassp2019/icassp2019/pdfs/0007045.pdf
Menuju mencapai vokoding universal yang kuat
- https://arxiv.org/pdf/1811.06292.pdf
Lpcnet
- https://arxiv.org/pdf/1810.11846.pdf
- https://arxiv.org/pdf/2001.11686.pdf
Excitenet
- https://arxiv.org/pdf/1811.04769v3.pdf
Gelp: Prediksi linier yang tereksitasi gan untuk sintesis bicara dari spektrogram-spektrogram
- https://arxiv.org/pdf/1904.03976v3.pdf
Sintesis Pidato Fidelity Tinggi dengan Jaringan Periasan: https://arxiv.org/abs/1909.11646
- Gan-tts, sintesis ucapan ujung ke ujung
- Menggunakan fitur durasi dan linguistik
- Durasi dan fitur akustik diprediksi oleh model tambahan.
- Diskriminator Jendela Acak: Menyeret bukan seluruh sampel suara tetapi jendela acak.
- Beberapa RWD. Beberapa bersyarat dan beberapa tidak bersyarat. (dikondisikan pada fitur input)
- Punchline: Gunakan jendela sampel secara acak dengan ukuran jendela yang berbeda untuk D.
- Hasil yang dibagikan terdengar mekanis yang menunjukkan batas fitur akustik non-neural.
Multi-band Melgan: https://arxiv.org/abs/2005.05106
- Gunakan kerugian PWGAN alih-alih kerugian pencocokan fitur.
- Menggunakan kinerja model bidang reseptif yang lebih besar secara signifikan.
- Pretraining generator untuk 200k iters.
- Prediksi sinyal suara multi-band. Outputnya adalah penjumlahan dari 4 prediksi pita yang berbeda dengan filter sintesis PQMF.
- Model multi-band memiliki parameter 1,9m (cukup kecil).
- Diklaim 7x lebih cepat dari Melgan
- Pada dataset Cina: MOS 4.22
Waveglow: https://arxiv.org/abs/1811.00002
- Model yang sangat besar (parameter 268m)
- Sulit dilatih karena pada GPU 12GB hanya dapat mengambil ukuran batch 1.
- Kesimpulan real-time karena penggunaan konvolusi.
- Berdasarkan aliran normalisasi yang terbalik. (Tutorial hebat https://blog.evjang.com/2018/01/nf1.html)
- Model belajar dan pemetaan sampel audio yang tidak biasa menjadi Mel-spectrograms dengan kehilangan kemungkinan maks.
- Dalam Inference Network berjalan dalam arah terbalik dan memberikan MEL-SPEC dikonversi ke sampel audio.
- Pelatihan telah dilakukan dengan menggunakan 8 NVIDIA V100 dengan RAM 32GB, ukuran batch 24. (Mahal)
Squeezewave: https://arxiv.org/pdf/2001.05685.pdf, kode: https://github.com/tianrengao/squeezewave
- ~ 5-13x lebih cepat dari waktu nyata
- Waveglow Redanduncies: Sampel audio panjang, upsamples Mel-specs, dimensi saluran besar dalam fungsi WN.
- Perbaikan: sampel audio lebih tetapi lebih pendek sebagai input, (l = 2000, c = 8 vs l = 64, c = 256)
- L = 64 cocok dengan resolusi Mel-spec sehingga tidak ada peningkatan yang diperlukan.
- Gunakan konvolusi terpisah yang dapat dipisahkan dalam modul WN.
- Gunakan konvolusi reguler alih -alih melebar karena sampel audio lebih pendek.
- Jangan membagi output modul ke output residual dan jaringan, dengan asumsi vektor ini hampir identik.
- Pelatihan telah dilakukan dengan menggunakan Titan RTX 24GB Batch Ukuran 96 untuk iterasi 600k.
- Mos pada ljspeech: waveglow - 4.57, squeezewave (l = 128 c = 256) - 4.07 dan squeezewave (l = 64 C = 256) - 3.77
- Model terkecil memiliki 21k sampel per detik pada RASPI3.

Wavegrad: https://arxiv.org/pdf/2009.00713.pdf

Ini didasarkan pada difusi probabilitas dan dinamika lagenvin
Gagasan dasarnya adalah mempelajari fungsi yang memetakan distribusi yang diketahui untuk menargetkan distribusi data secara iteratif.
Mereka melaporkan 0,2 faktor waktu nyata pada GPU tetapi kinerja CPU tidak dibagikan.
Dalam kode contoh di bawah ini, penulis melaporkan bahwa model konvergen setelah 2 hari pelatihan pada satu GPU.
Skor MOS di atas kertas tidak cukup ganas tetapi menunjukkan kinerja yang sebanding dengan model yang dikenal seperti Wavernn dan Wavenet.

Kode: https://github.com/ivanvovk/wavegrad gambar

Dari internet (blog, video dll)

Video

Diskusi kertas

Tacotron 2: https://www.youtube.com/watch?v=2iarxxm-v9w

Pembicaraan

Bicaralah tentang mendorong perbatasan teks-ke-speech, oleh Xu Tan, 2021, https://youtu.be/ma8pcvmr8b0
Bicara tentang sintesis teks-ke-speech berbasis model generatif, oleh Heiga Zen, 2017
- Video: https://youtu.be/nsrsrytkkt8
- Slide: https://research.google.com/pubs/pub45882.html
Tutorial tentang Sintesis Teks-ke-Teks Parametrik Saraf di Isca Odyessy 2020, oleh Xin Wang, 2020
- Video: https://youtu.be/wce7sycdzai
- Slide: http://tonywangx.github.io/slide.html#dec-2020
Kursus Pemrosesan Pidato ISCA tentang Neural Vocoders, 2022
- Komponen Dasar Vocoders Neural: https://youtu.be/m833q5i-zys
- Model generatif yang dalam untuk kompresi ucapan (lpcnet): https://youtu.be/7ksnfx3plgw
- Neural Auto-Regregressive, Source-Filter dan Vocoders Glottal: https://youtu.be/gprmxdberx0
  - Slide: http://tonywangx.github.io/slide.html#jul-2020
Sintesis Bicara dari Decoding Saraf Kalimat Lisan | AISC: https://www.youtube.com/watch?v=mndtmdpmnmo
Sintesis Teks-Untuk-Pidato Generatif: https://www.youtube.com/watch?v=j4mveanKing
Sintesis pidato untuk industri game: https://www.youtube.com/watch?v=aohaye4a-2q