Sebuah daftar kertas dan proyek tentang sintesis ucapan terdepan, teks-ke-pidato (TTS) , Synthesis Voice Synthesis (SVS) , konversi suara (VC) , Singing Voice Conversion (SVC) , dan karya menarik terkait (seperti sintesis musik , transkripsi musik otomatis , prediksi MOS otomatis , SSL berbasis ASR , ... dll).
Selamat datang di PR atau hubungi saya melalui email ([email protected]) untuk memperbarui makalah dan karya.
IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI
Neuraips, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, Ismir, ACM MM, ICASSP, Interspeech, ICME
Asru, Slt
[ 2022 ]
Learn2Sing 2.0: Difusi dan Bersama Pembicara Target Berbasis Informasi SVs Dengan Belajar dari Guru Bernyanyi | Interspeech 2022 | ✔️Code | Demo
Kerangka Representasi Pembicara Hirarki untuk Konversi Suara Bernyanyi One-Shot | Interspeech 2022 | Demo
Meningkatkan konversi suara bernyanyi berbasis bentuk gelombang permusuhan dengan sinyal harmonik | ICASSP 2022 | Demo
[ 2021 ]
DiffSVC: Model probabilistik difusi untuk menyanyikan konversi suara | Asru 2021 | Demo
Dekomposisi suara bernyanyi yang dapat dikendalikan dan dapat ditafsirkan melalui Assembaga | Neurips 2021 Workshop | Demo
Menuju konversi suara bernyanyi kesetiaan tinggi dengan referensi akustik dan pengkodean prediktif kontras | 2021/10 | Demo
FASTSVC: Konversi suara bernyanyi silang cepat silang dengan modulasi linier fitur-bijaksana | ICME 2021 | Demo
Konversi suara bernyanyi berbasis Wavenet tanpa pengawasan menggunakan augmentasi pitch dan pendekatan dua fase | 2021/07 | ✔️Code | Demo
[ 2020 ]
Konversi suara bernyanyi Zero-shot | Ismir 2020 | Demo
Fonetik posteriorgrams berbasis konversi suara bernyanyi banyak-ke-banyak melalui pelatihan permusuhan | 2020/12 | Demo | Kode tidak resmi
Durian-SC: Durasi Informed Attention Network Berdasarkan Sistem Konversi Suara | Interspeech 2020 | Demo
Konversi suara bernyanyi silang tanpa pengawasan | Interspeech 2020 | Demo
Pitchnet: Konversi suara bernyanyi tanpa pengawasan dengan Pitch Adversarial Network | ICASSP 2020 | Demo
VAW-GAN untuk menyanyikan konversi suara dengan data pelatihan non-paralel | Apsipa 2020 | ✔️Code | Demo
M4singer: skor multi-gaya, multi-penyanyi dan musik menyediakan Mandarin Singing Corpus | Neurips 2022 | ? Terapkan & Unduh | Demo
Nus-48e dinyanyikan dan lirik lirik corpus | ? Terapkan & unduh
NHSS: Database Paralel Pidato dan Singing | ? Terapkan & unduh
[ 2022 ]
[ 2021 ]
Investigasi representasi frekuensi waktu untuk ekstraksi fitur audio dalam klasifikasi teknik bernyanyi | APSIPA 2021
Konversi Teknik bernyanyi Zero-Shot | CMMR 2021
[ 2022 ]
Mempelajari representasi bicara yang tidak bergantung pada kebisingan untuk konversi suara berkualitas tinggi untuk penutur target yang berisik | Interspeech 2022 | Demo
Glow-Wavegan 2: Sintesis Teks-ke-Teks-Tembakan Berkualitas Tinggi dan Konversi Suara Apa pun | Interspeech 2022 | Demo
Konversi suara berbasis difusi dengan skema pengambilan sampel kemungkinan maksimum cepat | ICLR 2022 | ✔️Code | Demo
YourTTS: Menuju TT Multi-Speaker Zero-Shot dan Konversi Suara Zero-Shot untuk Semua Orang | ICML 2022 | ✔️Code | Demo | Demo | Blog
Sebuah studi perbandingan tentang konversi suara berbasis representasi swasembad Sendenya | IEEE JSTSP 2022/07
S3PRL-VC: Kerangka Konversi Suara Sumber Terbuka dengan Representasi Pidato yang Di-swadaya | ICASSP 2022 | ✔️Code
Perbandingan unit ucapan diskrit dan lunak untuk konversi suara yang lebih baik | ICASSP 2022 | ✔️Code | Demo
Perakitan: konversi suara yang realistis dengan mengumpulkan teknik sintesis ucapan modern | ICASSP 2022 | ✔️Code | Demo
NVC-NET: Konversi suara permusuhan end-to-end | ICASSP 2022 | ✔️Code | Demo
Disentangled Variational Speech Representation Learning untuk Konversi Suara Zero-Shot | ICASSP 2022 | Demo
Pelatihan Model Konversi Suara Zero-Shot yang kuat dengan fitur yang di-swadaya | ICASSP 2022 | Demo
Menuju Konversi Suara Degradasi-Robust | ICASSP 2022
DGC-Vektor: Penataran speaker baru untuk konversi suara nol-shot | ICASSP 2022 | Demo
Transfer Gaya Suara Zero-Shot End-to-End dengan Konvolusi Variabel Lokasi | 2022/05 | Demo
[ 2021 ]
Tentang pemodelan prosodi untuk konversi suara berbasis ASR+TTS | Asru 2021 | Demo
Analisis dan sintesis saraf: merekonstruksi pidato dari representasi yang di-swadaya | Neurips 2021 | Demo | Kode tidak resmi
MediumVC: Konversi suara apa saja menggunakan pidato spesifik spesifik sintetis sebagai fitur intermedium | 2021/10 | ✔️Code | Demo
StarGanV2-VC: Kerangka kerja yang beragam, tidak diawasi, dan tidak paralel untuk konversi suara yang terdengar alami | Interspeech 2021 Best Paper Award | ✔️Code | Demo
S2VC: Kerangka kerja untuk konversi suara apa pun dengan representasi pretrained yang di-swadaya | Interspeech 2021 | ✔️Code | Demo
Banyak-ke-banyak-banyak konversi suara berbasis disentenlement menggunakan autoencoder variasional | Interspeech 2021 | ✔️Code | Demo
Resintesis Bicara dari Representasi Disentangled Self-Invised Discrete | Interspeech 2021 | Demo
Meningkatkan transfer gaya suara nol-shot melalui pembelajaran representasi terpencil | ICLR 2021
Transfer gaya ritme global tanpa transkripsi teks | ICML 2021 | ✔️Code
Lagi-VC: Konversi suara satu-shot menggunakan panduan aktivasi dan normalisasi instance adaptif | ICASSP 2021 | ✔️Code | Demo
Konversi suara apa pun dengan pemodelan urutan-ke-urutan lokasi-relatif | IEEE/ACM TASLP 2021/05 | ✔️Code | Demo
[ 2020 ]
Tinjauan konversi suara dan tantangannya: Dari pemodelan statistik hingga pembelajaran yang mendalam | IEEE/ACM TASLP 2020/11
Dekomposisi Pidato Tanpa Diawasi Melalui Triple Information Bottleneck | ICML 2020 | ✔️Code
[ 2019 ]
Konversi suara satu-shot dengan memisahkan representasi speaker dan konten dengan normalisasi instance | Interspeech 2019 | ✔️Code
AUTOVC: Transfer Gaya Suara Zero-Shot Dengan Hanya Kehilangan Autoencoder | ICML 2019 | ✔️Code | Demo
CSTR VCTK Corpus: Bahasa Inggris Multi-Speaker Corpus untuk CSTR Voice Cloning Toolkit | 2019 | ? Terapkan & unduh
Aishell-3: Corpus multi-speaker mandarin TTS dan Baselines | 2020 | ? Terapkan & Unduh | Demo
Aishell-2: Mengubah Mandarin ASR Research menjadi Skala Industri | 2018 | ? Terapkan & unduh
Aishell-1: Corpus Pidato Mandarin Sumber Terbuka dan Baseline Pengenalan Pidato | 2017 | ? Terapkan & unduh
[ 2022 ]
Pengosongan Gaya Emosional dan Identitas Pembicara untuk Konversi Suara Ekspresif | Interspeech 2022 | Demo
Transfer emosi lintas-speaker berdasarkan kompensasi prosodi untuk sintesis ucapan end-to-end | Interspeech 2022 | Demo
Intensitas Emosi dan Kontrolnya untuk Konversi Suara Emosional | Transaksi IEEE pada komputasi afektif 2022/07 | ✔️Code | Demo
Konversi Emosi Bicara Teks Menggunakan Representasi Diskrit dan Didekomposisi | 202202 | Demo
[ 2021 ]
[ 2020 ]
Mengonversi emosi siapa pun: Menuju konversi suara emosional yang tidak tergantung pada pembicara | Interspeech 2020 | ✔️Code | Demo
Mentransformasikan spektrum dan prosodi untuk konversi suara emosional dengan data pelatihan non-paralel | Odyssey 2020 | ✔️Code | Demo
[ 2022 ]
Muskit: Perangkat Pemrosesan Musik End-to-End untuk menyanyikan Sintesis Suara | Interspeech 2022 | ✔️Code
Singaug: augmentasi data untuk menyanyikan sintesis suara dengan strategi pelatihan siklus-konsisten | Interspeech 2022 | ✔️Code
Wesinger: Sintesis Suara Bernyanyi Data-Agung dengan Kehilangan Bantu | Interspeech 2022 | Demo
Wesinger 2: Sintesis suara bernyanyi yang sepenuhnya paralel melalui pelatihan permusuhan bersyarat multi-penyanyi | 2022/08 | Demo
Pendekatan pembelajaran mendalam dalam topik pemrosesan informasi bernyanyi | IEEE/ACM TASLP 2022/07
Belajar keindahan dalam lagu: saraf nyanyian saraf cantik | ACL 2022 | ✔️Code | Demo
Diffsinger: Singing Voice Sintesis melalui mekanisme difusi dangkal | Aaai 2022 | ✔️Code | Demo
[ 2021 ]
[ 2020 ]
M4singer: skor multi-gaya, multi-penyanyi dan musik menyediakan Mandarin Singing Corpus | Neurips 2022 | ? Terapkan & Unduh | Demo
Popcs | Aaai 2022 | ? Terapkan & unduh
Opencpop: Corpus Lagu Populer Tiongkok Open Source Berkualitas Tinggi untuk Synthesis Suara Singing | Interspeech 2022 | ? Terapkan & unduh
[ 2022 ]
Prodiff: Model difusi cepat progresif untuk teks-ke-speech berkualitas tinggi | ACM MM 2022 | ✔️Code | Demo
BDDM: Model difusi denoising bilateral untuk sintesis ucapan berkualitas tinggi dan berkualitas tinggi | ICLR 2022 | ✔️Code | Demo
Fastdiff: Model Difusi Bersyarat Cepat untuk Sintesis Pidato Berkualitas Tinggi | IJCAI 2022 | ✔️Code | Demo
[ 2022 ]
Vocoders bernyanyi berbasis DDSP: synthesizer berbasis subtraktif baru dan evaluasi komprehensif | Ismir 2022 | ✔️Code | Demo
Fastdiff: Model Difusi Bersyarat Cepat untuk Sintesis Pidato Berkualitas Tinggi | IJCAI 2022 | ✔️Code | Demo
BinauralGrad: Model probabilistik difusi bersyarat dua tahap untuk sintesis audio binaural | 2022/05 | Demo
[ 2021 ]
Multi-Singer: Vocoder suara bernyanyi multi-penyanyi cepat dengan corpus skala besar | ACM MM 2021 | ? Terapkan & Unduh | ✔️Code | Demo
Wavegrad 2: Penyempurnaan Iteratif untuk Sintesis Teks-ke-Pidato | Interspeech 2021 | Demo
DiffWave: Model Difusi Serbaguna untuk Sintesis Audio | ICLR 2021 | ✔️Code | Demo
Wavegrad: memperkirakan gradien untuk generasi bentuk gelombang | ICLR 2021 | Demo
[ 2020 ]
HIFI-GAN: Jaringan permusuhan generatif untuk sintesis pidato kesetiaan yang efisien dan tinggi | Neurips 2020 | ✔️Code | Demo
Multi-band Melgan: Generasi bentuk gelombang yang lebih cepat untuk teks-ke-speech berkualitas tinggi | Interspeech 2020 | Demo
Parallel Wavegan: Model Generasi Gelombang Cepat Berdasarkan Jaringan Persegi Generatif dengan Spektrogram Multi-Resolusi | ICASSP 2020 | Demo | Kode tidak resmi
[ 2019 ]
Melgan: Jaringan permusuhan generatif untuk sintesis bentuk gelombang bersyarat | Neurips 2019 | ✔️Code | Demo
Menuju pencapaian vokoding saraf universal yang kuat | Interspeech 2019 | ✔️Code | Demo | Kode tidak resmi
[ 2022 ]
Sintesis musik multi-instrumen dengan difusi spektrogram | Ismir 2022 | ✔️Code | Demo
Musika! Generasi Musik Gelombang Bentuk Hebat Cepat | Ismir 2022 | ✔️Code | Demo
[ 2022 ]
[ 2021 ]
[ 2022 ]
UNISPEECH-SAT: Representasi wicara universal belajar dengan pembicara sadar pra-pelatihan | ICASSP 2022 | ✔️Code | ✔️Code
Trade-off efisiensi kinerja di pra-pelatihan yang tidak diawasi untuk pengenalan suara | ICASSP 2022 | ✔️Code | ✔️Code
Pelabelan semu untuk pengenalan suara multibahasa besar-besaran | ICASSP 2022 | ✔️Code | ✔️Code
WAVLM: Pra-pelatihan swadaya skala besar untuk pemrosesan ucapan tumpukan penuh | IEEE JSTSP 2022/06 | ✔️Code | ✔️Code
[ 2021 ]
XLS-R: Representasi wicara lintas-bahasa swadaya belajar pada skala | 2021/12 | ✔️Code | ✔️Code
Pengenalan fonem lintas-bahasa Zero-Shot Sederhana dan Efektif | 2021/09 | ✔️Code | ✔️Code
Tera: Pembelajaran yang di-swadaya dari representasi encoder transformator untuk pidato | IEEE/ACM TASLP 2021/08 | ✔️Code
Unispeech: Pembelajaran Representasi Bicara Terpadu dengan Data Berlabel dan Tidak Berlabel | ICML 2021 | ✔️Code | ✔️Code | ✔️Code
Hubert: Pembelajaran representasi ucapan yang di-swadaya dengan prediksi bertopeng unit tersembunyi | IEEE/ACM TASLP 2021/06 | ✔️Code | ✔️Code
[ 2020 ]
WAV2VEC 2.0: Kerangka kerja untuk pembelajaran representasi pidato yang di-swadaya | Neurips 2020 | ✔️Code | ✔️Code
VQ-WAV2VEC: Pembelajaran yang di-swadaya dari representasi pidato diskrit | Iclr 2020 | ✔️Code | ✔️Code
Mockingjay: Representasi wicara tanpa pengawasan belajar dengan encoders transformator dua arah yang dalam | ICASSP 2020 | ✔️Code
Pembelajaran representasi lintas-bahasa tanpa pengawasan untuk pengenalan suara | 2020/06 | ✔️Code | ✔️Code
Fairseq S2T: Pemodelan ucapan-ke-teks cepat dengan Fairseq | AACL 2020 | ✔️Code | ✔️Code
[ 2019 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
[ 2022 ]
[ 2022 ]
[ 2021 ]
[ 2022 ]
[ 2021 ]
[ 2021 ]
Tantangan Konversi Suara 2020 | ? Terapkan & Unduh | ✔️Code
Tantangan Blizzard