Awesome Singing Voice Synthesis and Singing Voice Conversion - Awesome Singing Voice Synthesis and Singing Voice Conversion

Awesome Singing Voice Synthesis and Singing Voice Conversion

Kode Sumber AI

1.0.0

Unduh

Sintesis suara bernyanyi yang luar biasa dan konversi suara bernyanyi

Sebuah daftar kertas dan proyek tentang sintesis ucapan terdepan, teks-ke-pidato (TTS) , Synthesis Voice Synthesis (SVS) , konversi suara (VC) , Singing Voice Conversion (SVC) , dan karya menarik terkait (seperti sintesis musik , transkripsi musik otomatis , prediksi MOS otomatis , SSL berbasis ASR , ... dll).

Selamat datang di PR atau hubungi saya melalui email ([email protected]) untuk memperbarui makalah dan karya.

Daftar Kertas

Jurnal

IEEE/ACM TASLP, IEEE JSTSP, JSLHR, IEEE TPAMI

Konferensi

Neuraips, ICLR, ICML, IJAI, AAAI, ACL, NAACL, EMNLP, Ismir, ACM MM, ICASSP, Interspeech, ICME

Bengkel

Asru, Slt

Konversi Suara Bernyanyi (Kata Kunci Lainnya: SVC, Transfer Gaya Bernyanyi)

[ 2022 ]

Learn2Sing 2.0: Difusi dan Bersama Pembicara Target Berbasis Informasi SVs Dengan Belajar dari Guru Bernyanyi | Interspeech 2022 | ✔️Code | Demo
Kerangka Representasi Pembicara Hirarki untuk Konversi Suara Bernyanyi One-Shot | Interspeech 2022 | Demo
Meningkatkan konversi suara bernyanyi berbasis bentuk gelombang permusuhan dengan sinyal harmonik | ICASSP 2022 | Demo

[ 2021 ]

DiffSVC: Model probabilistik difusi untuk menyanyikan konversi suara | Asru 2021 | Demo
Dekomposisi suara bernyanyi yang dapat dikendalikan dan dapat ditafsirkan melalui Assembaga | Neurips 2021 Workshop | Demo
Menuju konversi suara bernyanyi kesetiaan tinggi dengan referensi akustik dan pengkodean prediktif kontras | 2021/10 | Demo
FASTSVC: Konversi suara bernyanyi silang cepat silang dengan modulasi linier fitur-bijaksana | ICME 2021 | Demo
Konversi suara bernyanyi berbasis Wavenet tanpa pengawasan menggunakan augmentasi pitch dan pendekatan dua fase | 2021/07 | ✔️Code | Demo

[ 2020 ]

Konversi suara bernyanyi Zero-shot | Ismir 2020 | Demo
Fonetik posteriorgrams berbasis konversi suara bernyanyi banyak-ke-banyak melalui pelatihan permusuhan | 2020/12 | Demo | Kode tidak resmi
Durian-SC: Durasi Informed Attention Network Berdasarkan Sistem Konversi Suara | Interspeech 2020 | Demo
Konversi suara bernyanyi silang tanpa pengawasan | Interspeech 2020 | Demo
Pitchnet: Konversi suara bernyanyi tanpa pengawasan dengan Pitch Adversarial Network | ICASSP 2020 | Demo
VAW-GAN untuk menyanyikan konversi suara dengan data pelatihan non-paralel | Apsipa 2020 | ✔️Code | Demo

Tanggal

M4singer: skor multi-gaya, multi-penyanyi dan musik menyediakan Mandarin Singing Corpus | Neurips 2022 | ? Terapkan & Unduh | Demo
Nus-48e dinyanyikan dan lirik lirik corpus | ? Terapkan & unduh
NHSS: Database Paralel Pidato dan Singing | ? Terapkan & unduh

Klasifikasi Konversi Teknik Bernyanyi/Teknik Bernyanyi

[ 2022 ]

CNN yang dapat dideformasi dan fitur-fitur yang tidak sewasnya pembelajaran untuk klasifikasi teknik bernyanyi | Interspeech 2022

[ 2021 ]

Investigasi representasi frekuensi waktu untuk ekstraksi fitur audio dalam klasifikasi teknik bernyanyi | APSIPA 2021
Konversi Teknik bernyanyi Zero-Shot | CMMR 2021

Tanggal

Vokal: Dataset Suara Bernyanyi | Ismir 2018 | ? Terapkan & unduh

Konversi Suara (Kata Kunci Lainnya: VC, Kloning Suara, Transfer Gaya Suara)

[ 2022 ]

Mempelajari representasi bicara yang tidak bergantung pada kebisingan untuk konversi suara berkualitas tinggi untuk penutur target yang berisik | Interspeech 2022 | Demo
Glow-Wavegan 2: Sintesis Teks-ke-Teks-Tembakan Berkualitas Tinggi dan Konversi Suara Apa pun | Interspeech 2022 | Demo
Konversi suara berbasis difusi dengan skema pengambilan sampel kemungkinan maksimum cepat | ICLR 2022 | ✔️Code | Demo
YourTTS: Menuju TT Multi-Speaker Zero-Shot dan Konversi Suara Zero-Shot untuk Semua Orang | ICML 2022 | ✔️Code | Demo | Demo | Blog
Sebuah studi perbandingan tentang konversi suara berbasis representasi swasembad Sendenya | IEEE JSTSP 2022/07
S3PRL-VC: Kerangka Konversi Suara Sumber Terbuka dengan Representasi Pidato yang Di-swadaya | ICASSP 2022 | ✔️Code
Perbandingan unit ucapan diskrit dan lunak untuk konversi suara yang lebih baik | ICASSP 2022 | ✔️Code | Demo
Perakitan: konversi suara yang realistis dengan mengumpulkan teknik sintesis ucapan modern | ICASSP 2022 | ✔️Code | Demo
NVC-NET: Konversi suara permusuhan end-to-end | ICASSP 2022 | ✔️Code | Demo
Disentangled Variational Speech Representation Learning untuk Konversi Suara Zero-Shot | ICASSP 2022 | Demo
Pelatihan Model Konversi Suara Zero-Shot yang kuat dengan fitur yang di-swadaya | ICASSP 2022 | Demo
Menuju Konversi Suara Degradasi-Robust | ICASSP 2022
DGC-Vektor: Penataran speaker baru untuk konversi suara nol-shot | ICASSP 2022 | Demo
Transfer Gaya Suara Zero-Shot End-to-End dengan Konvolusi Variabel Lokasi | 2022/05 | Demo

[ 2021 ]

Tentang pemodelan prosodi untuk konversi suara berbasis ASR+TTS | Asru 2021 | Demo
Analisis dan sintesis saraf: merekonstruksi pidato dari representasi yang di-swadaya | Neurips 2021 | Demo | Kode tidak resmi
MediumVC: Konversi suara apa saja menggunakan pidato spesifik spesifik sintetis sebagai fitur intermedium | 2021/10 | ✔️Code | Demo
StarGanV2-VC: Kerangka kerja yang beragam, tidak diawasi, dan tidak paralel untuk konversi suara yang terdengar alami | Interspeech 2021 Best Paper Award | ✔️Code | Demo
S2VC: Kerangka kerja untuk konversi suara apa pun dengan representasi pretrained yang di-swadaya | Interspeech 2021 | ✔️Code | Demo
Banyak-ke-banyak-banyak konversi suara berbasis disentenlement menggunakan autoencoder variasional | Interspeech 2021 | ✔️Code | Demo
Resintesis Bicara dari Representasi Disentangled Self-Invised Discrete | Interspeech 2021 | Demo
Meningkatkan transfer gaya suara nol-shot melalui pembelajaran representasi terpencil | ICLR 2021
Transfer gaya ritme global tanpa transkripsi teks | ICML 2021 | ✔️Code
Lagi-VC: Konversi suara satu-shot menggunakan panduan aktivasi dan normalisasi instance adaptif | ICASSP 2021 | ✔️Code | Demo
Konversi suara apa pun dengan pemodelan urutan-ke-urutan lokasi-relatif | IEEE/ACM TASLP 2021/05 | ✔️Code | Demo

[ 2020 ]

Tinjauan konversi suara dan tantangannya: Dari pemodelan statistik hingga pembelajaran yang mendalam | IEEE/ACM TASLP 2020/11
Dekomposisi Pidato Tanpa Diawasi Melalui Triple Information Bottleneck | ICML 2020 | ✔️Code

[ 2019 ]

Konversi suara satu-shot dengan memisahkan representasi speaker dan konten dengan normalisasi instance | Interspeech 2019 | ✔️Code
AUTOVC: Transfer Gaya Suara Zero-Shot Dengan Hanya Kehilangan Autoencoder | ICML 2019 | ✔️Code | Demo

Tanggal

CSTR VCTK Corpus: Bahasa Inggris Multi-Speaker Corpus untuk CSTR Voice Cloning Toolkit | 2019 | ? Terapkan & unduh
Aishell-3: Corpus multi-speaker mandarin TTS dan Baselines | 2020 | ? Terapkan & Unduh | Demo
Aishell-2: Mengubah Mandarin ASR Research menjadi Skala Industri | 2018 | ? Terapkan & unduh
Aishell-1: Corpus Pidato Mandarin Sumber Terbuka dan Baseline Pengenalan Pidato | 2017 | ? Terapkan & unduh

Konversi suara emosional

[ 2022 ]

Pengosongan Gaya Emosional dan Identitas Pembicara untuk Konversi Suara Ekspresif | Interspeech 2022 | Demo
Transfer emosi lintas-speaker berdasarkan kompensasi prosodi untuk sintesis ucapan end-to-end | Interspeech 2022 | Demo
Intensitas Emosi dan Kontrolnya untuk Konversi Suara Emosional | Transaksi IEEE pada komputasi afektif 2022/07 | ✔️Code | Demo
Konversi Emosi Bicara Teks Menggunakan Representasi Diskrit dan Didekomposisi | 202202 | Demo

[ 2021 ]

Konversi Suara Emosional Data Terbatas Memanfaatkan Teks-ke-Pidato: Pelatihan Urutan Dua Tahap-ke-Sekali | Interspeech 2021 | ✔️Code | Demo

[ 2020 ]

Mengonversi emosi siapa pun: Menuju konversi suara emosional yang tidak tergantung pada pembicara | Interspeech 2020 | ✔️Code | Demo
Mentransformasikan spektrum dan prosodi untuk konversi suara emosional dengan data pelatihan non-paralel | Odyssey 2020 | ✔️Code | Demo

Tanggal

Transfer gaya emosional yang terlihat dan tidak terlihat untuk konversi suara dengan dataset ucapan emosional baru | ICASSP 2021 | ? Terapkan & Unduh | Demo

Sintesis Suara Bernyanyi (Kata Kunci Lainnya: SVS)

[ 2022 ]

Muskit: Perangkat Pemrosesan Musik End-to-End untuk menyanyikan Sintesis Suara | Interspeech 2022 | ✔️Code
Singaug: augmentasi data untuk menyanyikan sintesis suara dengan strategi pelatihan siklus-konsisten | Interspeech 2022 | ✔️Code
Wesinger: Sintesis Suara Bernyanyi Data-Agung dengan Kehilangan Bantu | Interspeech 2022 | Demo
Wesinger 2: Sintesis suara bernyanyi yang sepenuhnya paralel melalui pelatihan permusuhan bersyarat multi-penyanyi | 2022/08 | Demo
Pendekatan pembelajaran mendalam dalam topik pemrosesan informasi bernyanyi | IEEE/ACM TASLP 2022/07
Belajar keindahan dalam lagu: saraf nyanyian saraf cantik | ACL 2022 | ✔️Code | Demo
Diffsinger: Singing Voice Sintesis melalui mekanisme difusi dangkal | Aaai 2022 | ✔️Code | Demo

[ 2021 ]

Sinsy: Sistem sintesis suara bernyanyi berbasis jaringan yang dalam | IEEE/ACM TASLP 2021/08 | ✔️Code

[ 2020 ]

Hifisinger: Menuju Sintesis Suara Neural Neural Fidelity Tinggi | 2020/09 | Demo | Kode tidak resmi

Tanggal

M4singer: skor multi-gaya, multi-penyanyi dan musik menyediakan Mandarin Singing Corpus | Neurips 2022 | ? Terapkan & Unduh | Demo
Popcs | Aaai 2022 | ? Terapkan & unduh
Opencpop: Corpus Lagu Populer Tiongkok Open Source Berkualitas Tinggi untuk Synthesis Suara Singing | Interspeech 2022 | ? Terapkan & unduh

Sintesis ucapan berkualitas tinggi (kata-kata kunci lainnya: teks-ke-ucapan, tts)

[ 2022 ]

Prodiff: Model difusi cepat progresif untuk teks-ke-speech berkualitas tinggi | ACM MM 2022 | ✔️Code | Demo
BDDM: Model difusi denoising bilateral untuk sintesis ucapan berkualitas tinggi dan berkualitas tinggi | ICLR 2022 | ✔️Code | Demo
Fastdiff: Model Difusi Bersyarat Cepat untuk Sintesis Pidato Berkualitas Tinggi | IJCAI 2022 | ✔️Code | Demo

Vocoder

[ 2022 ]

Vocoders bernyanyi berbasis DDSP: synthesizer berbasis subtraktif baru dan evaluasi komprehensif | Ismir 2022 | ✔️Code | Demo
Fastdiff: Model Difusi Bersyarat Cepat untuk Sintesis Pidato Berkualitas Tinggi | IJCAI 2022 | ✔️Code | Demo
BinauralGrad: Model probabilistik difusi bersyarat dua tahap untuk sintesis audio binaural | 2022/05 | Demo

[ 2021 ]

Multi-Singer: Vocoder suara bernyanyi multi-penyanyi cepat dengan corpus skala besar | ACM MM 2021 | ? Terapkan & Unduh | ✔️Code | Demo
Wavegrad 2: Penyempurnaan Iteratif untuk Sintesis Teks-ke-Pidato | Interspeech 2021 | Demo
DiffWave: Model Difusi Serbaguna untuk Sintesis Audio | ICLR 2021 | ✔️Code | Demo
Wavegrad: memperkirakan gradien untuk generasi bentuk gelombang | ICLR 2021 | Demo

[ 2020 ]

HIFI-GAN: Jaringan permusuhan generatif untuk sintesis pidato kesetiaan yang efisien dan tinggi | Neurips 2020 | ✔️Code | Demo
Multi-band Melgan: Generasi bentuk gelombang yang lebih cepat untuk teks-ke-speech berkualitas tinggi | Interspeech 2020 | Demo
Parallel Wavegan: Model Generasi Gelombang Cepat Berdasarkan Jaringan Persegi Generatif dengan Spektrogram Multi-Resolusi | ICASSP 2020 | Demo | Kode tidak resmi

[ 2019 ]

Melgan: Jaringan permusuhan generatif untuk sintesis bentuk gelombang bersyarat | Neurips 2019 | ✔️Code | Demo
Menuju pencapaian vokoding saraf universal yang kuat | Interspeech 2019 | ✔️Code | Demo | Kode tidak resmi

Sintesis musik/sintesis musik

[ 2022 ]

Sintesis musik multi-instrumen dengan difusi spektrogram | Ismir 2022 | ✔️Code | Demo
Musika! Generasi Musik Gelombang Bentuk Hebat Cepat | Ismir 2022 | ✔️Code | Demo

Transkripsi musik otomatis

[ 2022 ]

MT3: Transkripsi Musik Multitrack Multi-Task | ICLR 2022 | ✔️Code |

[ 2021 ]

Omnizart: kotak alat umum untuk transkripsi musik otomatis | The Open Journal 2021/12 | ✔️Code | Demo

ASR yang diawasi/tidak diawasi

[ 2022 ]

UNISPEECH-SAT: Representasi wicara universal belajar dengan pembicara sadar pra-pelatihan | ICASSP 2022 | ✔️Code | ✔️Code
Trade-off efisiensi kinerja di pra-pelatihan yang tidak diawasi untuk pengenalan suara | ICASSP 2022 | ✔️Code | ✔️Code
Pelabelan semu untuk pengenalan suara multibahasa besar-besaran | ICASSP 2022 | ✔️Code | ✔️Code
WAVLM: Pra-pelatihan swadaya skala besar untuk pemrosesan ucapan tumpukan penuh | IEEE JSTSP 2022/06 | ✔️Code | ✔️Code

[ 2021 ]

XLS-R: Representasi wicara lintas-bahasa swadaya belajar pada skala | 2021/12 | ✔️Code | ✔️Code
Pengenalan fonem lintas-bahasa Zero-Shot Sederhana dan Efektif | 2021/09 | ✔️Code | ✔️Code
Tera: Pembelajaran yang di-swadaya dari representasi encoder transformator untuk pidato | IEEE/ACM TASLP 2021/08 | ✔️Code
Unispeech: Pembelajaran Representasi Bicara Terpadu dengan Data Berlabel dan Tidak Berlabel | ICML 2021 | ✔️Code | ✔️Code | ✔️Code
Hubert: Pembelajaran representasi ucapan yang di-swadaya dengan prediksi bertopeng unit tersembunyi | IEEE/ACM TASLP 2021/06 | ✔️Code | ✔️Code

[ 2020 ]

WAV2VEC 2.0: Kerangka kerja untuk pembelajaran representasi pidato yang di-swadaya | Neurips 2020 | ✔️Code | ✔️Code
VQ-WAV2VEC: Pembelajaran yang di-swadaya dari representasi pidato diskrit | Iclr 2020 | ✔️Code | ✔️Code
Mockingjay: Representasi wicara tanpa pengawasan belajar dengan encoders transformator dua arah yang dalam | ICASSP 2020 | ✔️Code
Pembelajaran representasi lintas-bahasa tanpa pengawasan untuk pengenalan suara | 2020/06 | ✔️Code | ✔️Code
Fairseq S2T: Pemodelan ucapan-ke-teks cepat dengan Fairseq | AACL 2020 | ✔️Code | ✔️Code

[ 2019 ]