Audiolm: Pendekatan pemodelan bahasa untuk generasi audio (2022), Zalán Borsos et al. [PDF]
Audioldm: generasi teks-ke-audio dengan model difusi laten (2023), Haohe Liu et al. [PDF]
Musiclm: Menghasilkan Musik Dari Teks (2023), Andrea Agostinelli et al. [PDF]
Moûsai: generasi teks-ke-musik dengan difusi laten konteks panjang (2023), Flavio Schneider et al. [PDF]
Noise2music: generasi musik yang dikondisikan teks dengan model difusi (2023), Qingqing Huang et al. [PDF]
Pengantar penerapan teori fungsi probabilistik dari proses Markov untuk pengenalan suara otomatis (1982), SE Levinson et al. [PDF]
Pendekatan kemungkinan maksimum untuk pengenalan suara berkelanjutan (1983), Lalit R. Bahl et al. [PDF]
Pengukuran akustik heterogen dan beberapa pengklasifikasi untuk pengenalan suara (1986), Andrew K. Halberstadt. [PDF]
Estimasi informasi timbal balik maksimum parameter model Markov tersembunyi untuk pengenalan suara (1986), Lalit R. Bahi et al. [PDF]
Tutorial tentang model Markov yang tersembunyi dan aplikasi terpilih dalam pengakuan suara (1989), Lawrence R Rabiner. [PDF]
Pengakuan Fonem Menggunakan Neural Networks Waktu-Delay (1989), Alexander H. Waibel et al. [PDF]
Pengenalan telepon speaker-independen menggunakan Hidden Markov Models (1989), Kai-Fu Lee et al. [PDF]
Model Markov Hidden untuk Pengenalan Pidato (1991), BH Juang et al. [PDF]
Tinjauan TDNN (Time Delay Network Network) Arsitektur untuk Pengenalan Pidato (2014), Masahide Sugiyamat et al. [PDF]
Pengenalan Pidato Koneksionis: Pendekatan Hibrida (1994), Herve Bourlard et al. [PDF]
Sistem pasca-pemrosesan untuk menghasilkan tingkat kesalahan kata yang dikurangi: pengakuan output pengurangan kesalahan pemungutan suara (Rover) (1997), JG Fiscus. [PDF]
Pengenalan Ucapan dengan Transduser Bobot-Negara (2001), M Mohri et al. [PDF]
Klasifikasi fonem framewise dengan LSTM dua arah dan arsitektur jaringan saraf lainnya (2005), Alex Graves et al. [PDF]
Klasifikasi Temporal Koneksionis: Memberi Label Data Urutan yang Tidak Dipersembahkan dengan Neural Networks Recurrent (2006), Alex Graves et al. [PDF]
The Kaldi Ucapan Pengenalan Toolkit (2011), Daniel Povey et al. [PDF]
Menerapkan konsep jaringan saraf konvolusional untuk model NN-HMM hibrida untuk pengenalan suara (2012), Ossama Abdel-Hamid et al. [PDF]
Jaringan saraf dalam pra-terlatih yang bergantung pada konteks untuk pengenalan suara vokabulary besar (2012), George E. Dahl et al. [PDF]
Jaringan saraf dalam untuk pemodelan akustik dalam pengenalan suara (2012), Geoffrey Hinton et al. [PDF]
Transduksi urutan dengan Recurrent Neural Networks (2012), Alex Graves et al. [PDF]
Jaringan saraf konvolusional dalam untuk LVCSR (2013), Tara N. Sainath et al. [PDF]
Meningkatkan jaringan saraf dalam untuk LVCSR menggunakan unit linier yang diperbaiki dan Dropout (2013), George E. Dahl et al. [PDF]
Meningkatkan CD-DNN-HMM dengan sumber daya rendah menggunakan Dropout dan Multilingual DNN Training (2013), Yajie Miao et al. [PDF]
Perbaikan untuk jaringan saraf konvolusional yang dalam untuk LVCSR (2013), Tara N. Sainath et al. [PDF]
Paradigma Pembelajaran Mesin untuk Pengenalan Pidato: Sebuah Tinjauan (2013), Li Deng et al. [PDF]
Kemajuan terbaru dalam pembelajaran mendalam untuk penelitian ucapan di Microsoft (2013), Li Deng et al. [PDF]
Pengenalan suara dengan jaringan saraf berulang dalam (2013), Alex Graves et al. [PDF]
Jaringan Maxout Deep Convolutional untuk Pengenalan Telepon (2014), László Tóth et al. [PDF]
Jaringan saraf konvolusional untuk pengenalan suara (2014), Ossama Abdel-Hamid et al. [PDF]
Menggabungkan konvolusi domain waktu dan frekuensi dalam pengenalan telepon berbasis jaringan saraf konvolusional (2014), László Tóth. [PDF]
Pidato DEEP: Meningkatkan Up-to-End-End Speech Recognition (2014), Awni Y. Hannun et al. [PDF]
Pengenalan ucapan terus menerus end-to-end menggunakan NN berulang berbasis perhatian: Hasil Pertama (2014), Jan Chorowski et al. [PDF]
Pengenalan ucapan kontinu kosakata besar pertama kali menggunakan DNN Recurrent bi-directional (2014), Andrew L. Maas et al. [PDF]
Arsitektur jaringan saraf berulang memori jangka pendek untuk pemodelan akustik skala besar (2014), Hasim Sak et al. [PDF]
Pengenalan ucapan berbasis CNN yang kuat dengan Gabor Filter Kernels (2014), Shuo-Yiin Chang et al. [PDF]
Stochastic Pooling Maxout Networks untuk Pengenalan Pidato Rendah Sumber Daya (2014), Meng Cai et al. [PDF]
Menuju pengakuan ucapan end-to-end dengan Recurrent Neural Networks (2014), Alex Graves et al. [PDF]
Transduser Neural (2015), N Jaitly et al. [PDF]
Model Berbasis Perhatian untuk Pengenalan Pidato (2015), Jan Chorowski et al. [PDF]
Analisis sistem pengenalan suara berbasis CNN menggunakan pidato mentah sebagai input (2015), Dimitri Palaz et al. [PDF]
Memori jangka pendek konvolusional, jangka pendek, jaringan saraf dalam yang sepenuhnya terhubung (2015), Tara N. Sainath et al. [PDF]
Jaringan saraf konvolusional yang dalam untuk pemodelan akustik dalam bahasa sumber daya rendah (2015), William Chan et al. [PDF]
Jaringan saraf dalam untuk pengenalan suara multi-pembicaraan saluran tunggal (2015), Chao Weng et al. [PDF]
EESEN: Pengenalan ucapan ujung ke ujung menggunakan model RNN yang dalam dan decoding berbasis WFST (2015), Y Miao et al. [PDF]
Model akustik jaringan saraf berulang yang cepat dan akurat untuk pengenalan suara (2015), Hasim Sak et al. [PDF]
Pengenalan suara percakapan bebas leksikon dengan Neural Networks (2015), Andrew L. Maas et al. [PDF]
Pelatihan urutan online dari jaringan saraf berulang dengan Klasifikasi Temporal Connectionist (2015), Kyuyeon Hwang et al. [PDF]
Kemajuan dalam Pengenalan Pidato Allural (2016), Geoffrey Zweig et al. [PDF]
Kemajuan dalam jaringan saraf konvolusional yang sangat dalam untuk LVCSR (2016), Tom Sercu et al. [PDF]
Pengenalan Pidato Kosakata Besar Berbasis Ujung End-to-End (2016), Dzmitry Bahdanau et al. [PDF]
Jaringan saraf konvolusional yang mendalam dengan ekspansi konteks lapisan bijaksana (2016), Dong Yu et al. [PDF]
Pidato DEEP 2: Pengenalan Pidato End-to-End dalam Bahasa Inggris dan Mandarin (2016), Dario Amodei et al. [PDF]
Pengenalan ucapan jauh berbasis perhatian ujung-ujung dengan Highway LSTM (2016), Hassan Taherian. [PDF]
Pengenalan ucapan end-to-end berbasis CTC bersama menggunakan Multi-Task Learning (2016), Suyoun Kim et al. [PDF]
Dengarkan, Hadiri, dan Mantra: Jaringan Saraf untuk Pengenalan Pidato Percakapan Kosakata Besar (2016), William Chan et al. [PDF]
Dekomposisi Urutan Laten (2016), William Chan et al. [PDF]
Pemodelan pola frekuensi waktu dengan arsitektur LSTM vs konvolusional untuk tugas LVCSR (2016), Tara N. Sainath et al. [PDF]
Model berulang untuk perhatian pendengaran dalam pengenalan suara jarak multi-mikrofon (2016), Suyoun Kim et al. [PDF]
Jaringan saraf berulang segmental untuk pengakuan ucapan end-to-end (2016), Liang Lu et al. [PDF]
Menuju decoding dan integrasi model bahasa yang lebih baik secara berurutan ke model urutan (2016), Jan Chorowski et al. [PDF]
Jaringan saraf konvolusional yang sangat mendalam untuk pengenalan suara yang kuat (2016), Yanmin Qian et al. [PDF]
Jaringan konvolusional yang sangat dalam untuk pengenalan ucapan end-to-end (2016), Yu Zhang et al. [PDF]
Jaringan saraf konvolusional multibahasa yang sangat dalam untuk LVCSR (2016), Tom Sercu et al. [PDF]
WAV2LETTER: Sistem pengenalan suara berbasis konvnet ujung ke ujung (2016), Ronan Collobert et al. [PDF]
Pengenalan Emosi Bicara Berbasis Jaringan Neural Berbasis Jaringan: Sebuah Studi tentang Dampak Fitur Input, Panjang Sinyal, dan Pidato Bertindak (2017), Michael Neumann et al. [PDF]
Sistem pengenalan suara otomatis yang ditingkatkan untuk Arab (2017), Mohamed Amine Menacer et al. [PDF]
Kemajuan dalam pengakuan ucapan end-to-end berbasis CTC bersama dengan encoder CNN yang dalam dan RNN-LM (2017), Takaaki Hori et al. [PDF]
Jaringan jaringan saraf dalam untuk pengenalan suara jauh (2017), Mirco Ravanelli et al. [PDF]
Model urutan-ke-urutan online untuk pengenalan suara berisik (2017), Chung-Cheng Chiu et al. [PDF]
Teknik pengelompokan speaker yang tidak diawasi berdasarkan SOM dan I-vektor untuk sistem pengenalan suara (2017), Hany Ahmed et al. [PDF]
Pengenalan suara end-to-end berbasis perhatian di Mandarin (2017), C Shan et al. [PDF]
Membangun Model Akustik DNN untuk Pengenalan Pidato Kosakata Besar (2017), Andrew L. Maas et al. [PDF]
Model akustik-ke-kata langsung untuk pengenalan suara percakapan bahasa Inggris (2017), Kartik Audhkhasi et al. [PDF]
Pembelajaran mendalam untuk pengenalan suara yang kuat secara lingkungan: Tinjauan umum perkembangan terkini (2017), Zixing Zhang et al. [PDF]
Pengenalan Pidato Telepon Percakapan Bahasa Inggris oleh Humans and Machines (2017), George Saon et al. [PDF]
ESE: Mesin pengenalan ucapan yang efisien dengan LSTM jarang di FPGA (2017), Song Han et al. [PDF]
Menjelajahi peningkatan bicara dengan jaringan permusuhan generatif untuk pengenalan suara yang kuat (2017), Chris Donahue et al. [PDF]
LSTM dalam untuk pengenalan ucapan kontinu kosakata besar (2017), Xu Tian et al. [PDF]
Normalisasi lapisan dinamis untuk pemodelan akustik saraf adaptif dalam pengenalan suara (2017), Taesup Kim et al. [PDF]
Gram-CTC: Pemilihan unit otomatis dan dekomposisi target untuk pelabelan urutan (2017), Hairong Liu et al. [PDF]
Meningkatkan kinerja model transduser saraf online (2017), Tara N. Sainath et al. [PDF]
Mempelajari bank filter dari pidato mentah untuk pengenalan telepon (2017), Neil Zeghidour et al. [PDF]
Pengenalan Pidato End-to-End MultiChannel (2017), Tsubasa Ochiai et al. [PDF]
Pembelajaran multi-tugas dengan CTC dan CRF segmental untuk pengenalan suara (2017), Liang Lu et al. [PDF]
Pemrosesan sinyal multichannel dengan jaringan saraf dalam untuk pengenalan suara otomatis (2017), Tara N. Sainath et al. [PDF]
Pengenalan ucapan multibahasa dengan model end-to-end tunggal (2017), Shubham Toshniwal et al. [PDF]
Mengoptimalkan tingkat kesalahan kata yang diharapkan melalui pengambilan sampel untuk pengenalan suara (2017), Matt Shannon. [PDF]
Jaringan CTC konvolusional residual untuk pengenalan suara otomatis (2017), Yisen Wang et al. [PDF]
Residual LSTM: Desain arsitektur berulang yang dalam untuk pengenalan ucapan jauh (2017), Jaeyoung Kim et al. [PDF]
Model berulang untuk perhatian pendengaran dalam pengenalan suara jarak multi-mikrofon (2017), Suyoun Kim et al. [PDF]
Mengurangi Bias dalam Model Pidato Produksi (2017), Eric Battenberg et al. [PDF]
Pengenalan ucapan yang kuat menggunakan Generative Adversarial Networks (2017), Anuroop Sriram et al. [PDF]
Pengakuan ucapan canggih dengan model urutan-ke-urutan (2017), Chung-Cheng Chiu et al. [PDF]
Menuju pengenalan ucapan end-to-end universal (2017), Suyun Kim et al. [PDF]
Mempercepat Sistem Pengenalan Pidato Online Berbasis Model Bahasa Berbasis Jaringan (2018), K Lee et al. [PDF]
Model perhatian CTC hibrida yang ditingkatkan untuk pengenalan suara (2018), Zhe Yuan et al. [PDF]
Pengenalan ucapan end-to-end berbasis Hybrid CTC menggunakan Unit Subword (2018), Zhangyu Xiao et al. [PDF]
Specaugment: Metode augmentasi data sederhana untuk pengenalan suara otomatis (2019), Daniel S. Park et al. [PDF]
VQ-WAV2VEC: Pembelajaran Sandan Representasi Pidato Discrete (2019), Alexei Baevski et al. [PDF]
Efektivitas pra-pelatihan yang diatur sendiri untuk pengenalan suara (2020), Alexei Baevski et al. [PDF]
Peningkatan pelatihan siswa yang berisik untuk pengenalan suara otomatis (2020), Daniel S. Park, dkk. [PDF]
ContextNet: Meningkatkan Jaringan Saraf Konvolusional untuk Pengakuan Pidato Otomatis dengan Konteks Global (2020), Wei Han, dkk. [PDF]
Conformer: Transformator Augmented Convolution untuk Pengenalan Pidato (2020), Anmol Gulati, dkk. [PDF]
Pada perbandingan model end-to-end populer untuk pengenalan suara skala besar (2020), Jinyu Li et al. [PDF]
Pembelajaran augmented kontras-swadaya untuk representasi invarian audio (2021), melikasadat emami et al. [PDF]
Pelatihan efisien transformator audio dengan patchout (2021), Khaled Koutini et al. [PDF]
MIXSPEECH: Augmentasi data untuk pengenalan suara otomatis sumber daya rendah (2021), Linghui Meng et al. [PDF]
Pembelajaran multi-encoder dan fusi aliran untuk pengenalan suara otomatis end-to-end berbasis transformator (2021), Timo Lohrenz et al. [PDF]
Specaugment ++: Metode augmentasi data ruang tersembunyi untuk klasifikasi adegan akustik (2021), Helin Wang et al. [PDF]
Specmix: Metode augmentasi data sampel campuran untuk pelatihan dengan fitur domain frekuensi waktu (2021), Gwantae Kim et al. [PDF]
Sejarah Pengakuan Pidato hingga Tahun 2030 (2021), Awni Hannun et al. [PDF]
Konversi suara dapat meningkatkan ASR dalam pengaturan sumber daya yang sangat rendah (2021), Matthew Baas et al. [PDF]
Mengapa CTC menghasilkan perilaku puncak? (2021), Albert Zeyer et al. [PDF]
Segmenter E2E: Segmentasi dan decoding sendi untuk Asr bentuk panjang (2022), W. Ronny Huang et al. [PDF]
Pemisahan sumber musik dengan aliran generatif (2022), Ge Zhu et al. [PDF]
Meningkatkan representasi pidato yang di-swadaya oleh Disentangling Speakers (2022), Kaizhi Qian et al. [PDF]
Pengenalan suara yang kuat melalui pengawasan lemah skala besar (2022), Alec Radford et al. [PDF]
Pada arsitektur khusus dekoder untuk integrasi model-ke-teks dan bahasa besar (2023), Jian Wu et al. [PDF]
Verifikasi speaker menggunakan model campuran Gaussian yang diadaptasi (2000), Douglas A.Reynolds et al. [PDF]
Tutorial tentang verifikasi speaker-independen teks (2004), Frédéric Bimbot et al. [PDF]
Jaringan saraf dalam untuk verifikasi speaker yang bergantung pada teks jejak kaki kecil (2014), E Variani et al. [PDF]
Vektor pembicara mendalam untuk verifikasi speaker semi-independen (2015), Lantian Li et al. [PDF]
Deep Speaker: Sistem Embedding Neural End-to-End-End (2017), Chao Li et al. [PDF]
Deep Speaker Fitur Pembelajaran untuk Verifikasi Pembicara Teks-Independen (2017), Lantian Li et al. [PDF]
Verifikasi pembicara yang mendalam: Apakah kita perlu ujung ke ujung? (2017), Dong Wang et al. [PDF]
Diarisasi pembicara dengan LSTM (2017), Quan Wang et al. [PDF]
Verifikasi pembicara teks-independen menggunakan 3D Convolutional Neural Networks (2017), Amirsina Torfi et al. [PDF]
Verifikasi speaker yang tidak bergantung pada end-to-end dengan kehilangan triplet pada ucapan pendek (2017), Chunlei Zhang et al. [PDF]
Embeddings jaringan saraf dalam untuk verifikasi speaker independen teks (2017), David Snyder et al. [PDF]
Embeddings diskriminatif yang mendalam untuk durasi verifikasi speaker yang kuat (2018), Na Li et al. [PDF]
Mempelajari fitur diskriminatif untuk identifikasi dan verifikasi pembicara (2018), Sarthak Yadav et al. [PDF]
Kehilangan softmax margin besar untuk verifikasi speaker (2019), Yi Liu et al. [PDF]
Peningkatan fitur tanpa pengawasan untuk verifikasi speaker (2019), Phani Sankar Nidadavolu et al. [PDF]
Peningkatan fitur dengan kerugian fitur yang mendalam untuk verifikasi speaker (2019), Saurabh Kataria et al. [PDF]
Kehilangan end2end umum untuk verifikasi pembicara (2019), Li Wan et al. [PDF]
Pengkodean piramida spasial dengan normalisasi panjang cembung untuk verifikasi speaker-independen teks (2019), Youngmoon Jung et al. [PDF]
VOXSRC 2019: Tantangan Pengakuan Pembicara Voxceleb pertama (2019), Son Chung et al. [PDF]
Tetapi deskripsi sistem untuk Voxceleb Speaker Recognition Challenge 2019 (2019), Hossein Zeinali et al. [PDF]
Deskripsi Sistem R&D ID untuk Tantangan Verifikasi Pembicara Durasi Pendek 2021 (2021), Alenin et al. [PDF]
Konversi Suara Menggunakan Deep Bidirectional Long Jangka Panjang Berbasis Memori Berulang Jaringan (2015), Lifa Sun et al. [PDF]
Fonetik posteriorgram untuk konversi suara banyak-ke-satu tanpa pelatihan data paralel (2016), Lifa Sun et al. [PDF]
Stargan-VC: Konversi suara banyak-ke-banyak non-paralel dengan Star Generative Adversarial Networks (2018), Hirokazu Kameoka et al. [PDF]
AUTOVC: Transfer Gaya Suara Zero-Shot dengan hanya Autoencoder Loss (2019), Kaizhi Qian et al. [PDF]
Stargan-VC2: Memikirkan kembali metode bersyarat untuk konversi suara berbasis Stargan (2019), Takuhiro Kaneko et al. [PDF]
Pembelajaran ujung ke ujung yang tidak diawasi dari unit linguistik diskrit untuk konversi suara (2019), Andy T. Liu et al. [PDF]
Embeddings speaker berbasis perhatian untuk konversi suara satu-shot (2020), Tatsuma Ishihara et al. [PDF]
Konversi suara non-paralel banyak-ke-banyak yang konsisten melalui autoencoder bersyarat (2020), Kaizhi Qian et al. [PDF]
Konversi suara non-paralel berbasis-sintesis dengan Pembelajaran Presperarial (2020), Jing-Xuan Zhang et al. [PDF]
Stargan yang lebih baik untuk konversi suara emosional: meningkatkan kualitas suara dan augmentasi data (2021), Xiangheng He et al. [PDF]
CRANK: Perangkat lunak sumber terbuka untuk konversi suara non-paralel berdasarkan vektor variasional autoencoder (2021), Kazuhiro Kobayashi et al. [PDF]
CVC: Pembelajaran kontras untuk konversi suara non-paralel (2021), Tingle Li et al. [PDF]
Noisevc: Menuju konversi suara nol-shot berkualitas tinggi (2021), Shijun Wang et al. [PDF]
Pada pemodelan prosodi untuk konversi suara berbasis ASR+TTS (2021), Wen-Chin Huang et al. [PDF]
Starganv2-VC: Kerangka kerja yang beragam, tidak diawasi, dan tidak paralel untuk konversi suara yang terdengar alam (2021), Yinghao Aaron Li et al. [PDF]
Konversi suara Zero-shot melalui pembelajaran representasi prosodi yang di-swadaya (2021), Shijun Wang et al. [PDF]
Estimasi Sinyal dari Fourier Transformasi waktu pendek yang dimodifikasi (1993), Daniel W. Griffin et al. [PDF]
Text-to-Speech Sintesis (2009), Paul Taylor et al. [PDF]
Algoritma Griffin-Lim yang cepat (2013), Nathanael Perraudin et al. [PDF]
Sintesis TTS dengan jaringan saraf berulang berbasis dua arah LSTM (2014), Yuchen Fan et al. [PDF]
Langkah pertama menuju sintesis TTS parametrik end-to-end: menghasilkan parameter spektral dengan Neural Attention (2016), Wenfu Wang et al. [PDF]
Kemajuan terbaru di Google Real-Time-Driven Unit Selection Synthesizer (2016), Xavi Gonzalvo et al. [PDF]
Samplernn: Model generasi audio saraf ujung ke ujung tanpa syarat (2016), Soroush Mehri et al. [PDF]
WAVENET: Model generatif untuk Audio Raw (2016), Aäron van den Oord et al. [PDF]
Char2Wav: Sintesis Pidato End-to-End (2017), J Sotelo et al. [PDF]
Deep Voice: Real-Time Neural Text-to-Speech (2017), Sercan O. Arik et al. [PDF]
Deep Voice 2: Multi-speaker saraf Teks-ke-Speech (2017), Sercan Arik et al. [PDF]
Deep Voice 3: 2000 Speaker Neural Text-to-Speech (2017), Wei Ping et al. [PDF]
Sintesis TTS alami dengan mengondisikan Wavenet pada prediksi spektrogram MEL (2017), Jonathan Shen et al. [PDF]
Paralel Wavenet: Sintesis Pidato Keseneraan Tinggi Cepat (2017), Aaron van Den Oord et al. [PDF]
Sintesis wicara parametrik statistik menggunakan jaringan permusuhan generatif di bawah kerangka pembelajaran multi-tugas (2017), S Yang et al. [PDF]
Tacotron: Menuju Sintesis Pidato End-to-End (2017), Yuxuan Wang et al. [PDF]
Mengungkap Faktor Gaya Laten untuk Sintesis Bicara Ekspresif (2017), Yuxuan Wang et al. [PDF]
Voiceloop: Pemasangan suara dan sintesis melalui loop fonologis (2017), Yaniv Taigman et al. [PDF]
Klarinet: Generasi gelombang paralel dalam teks-ke-end-end-speech (2018), Wei Ping et al. [PDF]
Jaringan memori berurutan feed-forward dalam untuk sintesis wicara (2018), Mengxiao Bi et al. [PDF]
LPCNET: Meningkatkan sintesis bicara saraf melalui prediksi linier (2018), Jean-Marc Valin et al. [PDF]
Mempelajari representasi laten untuk kontrol gaya dan transfer dalam sintesis ucapan end-to-end (2018), Ya-Jie Zhang et al. [PDF]
Kloning suara saraf dengan beberapa sampel (2018), Sercan O. Arık et al. [PDF]
Memprediksi gaya berbicara ekspresif dari teks dalam sintesis ucapan end-to-end (2018), Daisy Stanton et al. [PDF]
Token Gaya: Pemodelan gaya, kontrol, dan transfer yang tidak diawasi dalam sintesis ucapan end-to-end (2018), Y Wang et al. [PDF]
Menuju transfer prosodi end-to-end untuk sintesis ucapan ekspresif dengan Tacotron (2018), RJ Skerry-Ryan et al. [PDF]
Durian: Durasi Jaringan Perhatian Informed untuk Sintesis Multimodal (2019), Chengzhu Yu et al. [PDF]
Inversi Spektrogram Cepat Menggunakan Multi-Head Convolutional Neural Networks (2019), Sö Arık et al. [PDF]
Fastspeech: Teks cepat, kuat dan dapat dikendalikan untuk berbicara (2019), Yi Ren et al. [PDF]
Belajar berbicara dengan lancar dalam bahasa asing: sintesis pidato multibahasa dan kloning suara lintas bahasa (2019), Yu Zhang et al. [PDF]
Melnet: Model generatif untuk audio dalam domain frekuensi (2019), Sean Vasquez et al. [PDF]
Sintesis ucapan end-to-end multi-speaker (2019), Jihyun Park et al. [PDF]
Melgan: Jaringan permusuhan generatif untuk sintesis bentuk gelombang bersyarat (2019), Kundan Kumar et al. [PDF]
Sintesis pidato saraf dengan Transformer Network (2019), Nihehan Li et al. [PDF]
Teks Saraf Paralel-ke-Speech (2019), Kainan Peng et al. [PDF]
Representasi teks pra-terlatih untuk meningkatkan pemrosesan teks front-end dalam sintesis teks-ke-speech mandarin (2019), Bing Yang et al. [PDF]
Paralel Wavegan: Model generasi gelombang cepat berdasarkan jaringan permusuhan generatif dengan spektrogram multi-resolusi (2019), Ryuichi Yamamoto et al. [PDF] Ini keluar pada waktu yang sama dengan Melgan, sementara tidak ada yang saling mengacu ... Selain itu, saya pikir kebisingan Gaussian tidak perlu, karena Melspec memiliki informasi yang sangat kuat.
Masalah ucapan ucapan-agnostik untuk multi-speaker text-to-speech dengan samplernn (2019), David Alvarez et al. [PDF]
Pemodelan akustik sekuens-ke-urutan yang kuat dengan perhatian monotonik bertahap untuk TTS Neural (2019), Mutian HE et al. [PDF]
Menuju Transfer Learning untuk sintesis ucapan end-to-end dari model bahasa pra-terlatih yang dalam (2019), Wei Fang et al. [PDF]
Transfer pembelajaran dari verifikasi speaker ke sintesis multispeaker text-to-speech (2019), Ye Jia et al. [PDF]
WAVEFLOW: Model berbasis aliran kompak untuk Audio Raw (2019), Wei Ping et al. [PDF]
Waveglow: jaringan generatif berbasis aliran untuk sintesis wicara (2019), R Prenger et al. [PDF]
AlignTTS: Sistem Text-to-Speech Feed-Forward yang efisien tanpa Alignmen Eksplisit (2020), Zhen Zeng et al. [PDF]
Boffin TTS: Adaptasi speaker beberapa-shot oleh Bayesian Optimization (2020), Henry B.Moss et al. [PDF]
LPCNET Berkuling: Vocoder untuk sistem teks-ke-ucapan berbiaya rendah (2020), Ravichander Vipperla et al. [PDF]
Copycat: Transfer prosodi yang banyak berbutir halus untuk neural text-to-speech (2020), Sri Karlapati et al. [PDF]
EfficientTTS: Arsitektur Text-to-Speech yang efisien dan berkualitas tinggi (2020), Chenfeng Miao et al. [PDF]
Text-to-speech end-to-end (2020), Jeff Donahue et al. [PDF]
Fastspeech 2: Teks ujung ke ujung berkualitas tinggi dan berkualitas tinggi (2020), Yi Ren et al. [PDF]
Flowtron: Jaringan generatif berbasis aliran autoregresif untuk sintesis teks-ke-pidato (2020), Rafael Valle et al. [PDF]
Flow-TTS: Jaringan non-autoregresif untuk teks ke pidato berdasarkan Flow (2020), Chenfeng Miao et al. [PDF]
Pemodelan prosodi berbutir halus yang sepenuhnya hierarkis untuk sintesis wicara yang dapat ditafsirkan (2020), Guangzhi Sun et al. [PDF]
Menghasilkan sampel teks-ke-speech yang beragam dan alami menggunakan VAE berbutir halus dan prosodi auto-regresif sebelumnya (2020), Guangzhi Sun et al. [PDF]
Glow-TTS: Aliran generatif untuk teks-ke-speech melalui pencarian perataan monotonik (2020), Jaehyeon Kim et al. [PDF]
HIFI-GAN: Jaringan permusuhan generatif untuk sintesis wicara kesetiaan yang efisien dan tinggi (2020), Jungil Kong et al. [PDF]
Mekanisme perhatian-relatif lokasi untuk Synthesi pidato panjang yang kuat (2020), Eric Battenberg et al. [PDF]
MULTISPEECH: Teks multi-speaker untuk berbicara dengan Transformer (2020), Mingjian Chen et al. [PDF]
Tacotron paralel: TTS (2020) non-autoregresif dan terkontrol (2020), Isaac Elias et al. [PDF]
Robutrans: Model Text-to-Speech Berbasis Transformator yang kuat (2020), Nihian Li et al. [PDF]
Verifikasi speaker teks-independen dengan Dual Attention Network (2020), Jingyu Li et al. [PDF]
Wavegrad: memperkirakan gradien untuk generasi bentuk gelombang (2020), Nanxin Chen et al. [PDF]
Adaspeech: Teks adaptif untuk berbicara untuk suara khusus (2021), Mingjian Chen et al. [PDF]
Sebuah survei tentang sintesis bicara saraf (2021), Xu Tan et al. [PDF]
Vocoder GaN streamwise untuk pengkodean pidato wideband pada laju bit yang sangat rendah (2021), Ahmed Mustafa et al. [PDF]
Transfer emosi silang-speaker yang dapat dikendalikan untuk sintesis ucapan end-to-end (2021), Tao Li et al. [PDF]
Mengkloning suara seseorang menggunakan data yang sangat terbatas di alam liar (2021), Dongyang Dai et al. [PDF]
Autoencoder variasional bersyarat dengan pembelajaran permusuhan untuk teks ke ujung ke ujung (2021), Jaehyeon Kim et al. [PDF]
DiffWave: Model difusi serbaguna untuk sintesis audio (2021), Zhifeng Kong et al. [PDF]
Diff-TTS: Model difusi denoising untuk teks-ke-pidato (2021), Myeonghun Jeong et al. [PDF]
DelightFultts: Sistem Sintesis Pidato Microsoft untuk Blizzard Challenge 2021 (2021), Yanqing Liu et al. [PDF]
FRE-GAN: Sintesis audio yang konsisten dengan frekuensi permusuhan (2021), Ji-hoon Kim et al. [PDF]
LPCNET full-band: Vocoder saraf real-time untuk audio 48 kHz dengan CPU (2021), Keisuke Matsubara et al. [PDF]
Grad-TTS: Model probabilistik difusi untuk teks-ke-pidato (2021), Vadim Popov et al. [PDF]
Glow-Wavegan: Mempelajari representasi bicara dari variasi auto-encoder berbasis GAN untuk sintesis wicara berbasis aliran kesetiaan tinggi (2021), Jian Cong et al. [PDF]
Vokoder saraf universal kesetiaan tinggi dan latensi rendah berdasarkan multiband wavernn dengan prediksi linier yang digerakkan oleh data untuk pemodelan bentuk gelombang diskrit (2021), Patrick Lumban Tobing et al. [PDF]
Pemodelan prosodi hierarkis untuk sintesis bicara non-otegresif (2021), Chung-Ming Chien et al. [PDF]
Itoˆtts dan ItoˆWave: Persamaan diferensial stokastik linier adalah semua yang Anda butuhkan untuk pembuatan audio (2021), Shoule Wu et al. [PDF]
Jets: Secara bersama-sama melatih FastSpeech2 dan Hifi-Gan untuk teks ujung ke ujung untuk berbicara (2021), Dan Lim et al. [PDF]
Meta-voice: Transfer gaya beberapa-shot cepat untuk kloning suara ekspresif menggunakan Meta Learning (2021), Songxiang Liu et al. [PDF]
HMM saraf adalah semua yang Anda butuhkan (untuk TT bebas perhatian berkualitas tinggi) (2021), Shivam Mehta et al. [PDF]
Pengalihan pitch saraf dan peregangan waktu dengan LPCNet yang dapat dikendalikan (2021), Max Morrison et al. [PDF]
Satu penyelarasan TTS untuk memerintah semuanya (2021), Rohan Badlani et al. [PDF]
Karatuner: Menjelang ujung ke ujung koreksi pitch alami untuk menyanyikan suara di Karaoke (2021), Xiaobin Zhuang et al. [PDF]
PNG Bert: Augmented Bert pada fonem dan grafem untuk TTS Neural (2021), Ye Jia et al. [PDF]
Paralel Tacotron 2: Model TTS saraf non-autoregresif dengan pemodelan durasi yang dapat dibedakan (2021), Isaac Elias et al. [PDF]
Portaspeech: Text-to-speech generatif portabel dan berkualitas tinggi (2021), Yi Ren et al. [PDF]
Pemodelan akustik berbasis transformator untuk streaming speech sintesis (2021), Chunyang Wu et al. [PDF]
Triple M: Sistem teks-ke-ucapan saraf praktis dengan perhatian multi-penimbunan dan multi-band multi-waktu LPCNET (2021), Shilun Lin et al. [PDF]
Talknet 2: Model konvolusional yang dapat dipisahkan oleh kedalaman yang tidak dapat dipisahkan untuk sintesis wicara dengan prediksi pitch dan durasi eksplisit (2021), Stanislav Beliaev et al. [PDF] TalkNet2 memiliki perbedaan kecil dari TalkNet, jadi saya tidak menyertakan TalkNet di sini.
Menuju kontrol gaya multi-skala untuk sintesis ucapan ekspresif (2021), Xiang Li et al. [PDF]
Sumber-filter GAN yang terpadu: Jaringan Sumber-Filter Unified berdasarkan faktorisasi paralel quasi-periodik Wavegan (2021), Reo Yoneyama et al. [PDF]
YourTTS: Menuju TT multi-speaker nol-shot dan konversi suara nol-shot untuk semua orang (2021), Edresson Casanova et al. [PDF]
Avocodo: Jaringan permusuhan generatif untuk vocoder bebas artefak (2022), Taejun Bak et al. [PDF]
Pembelajaran konsistensi pembicara yang bermusuhan menggunakan data pidato yang tidak ditranskripsi untuk teks multi-speaker multi-speaker zero-shot (2022), oleh Jin Choi et al. [PDF]
LPCNET2 Berikat: Vokoder saraf yang efisien yang menutupi perangkat dari cloud ke edge (2022), Sangjun Park et al. [PDF]
Transfer emosi lintas-speaker untuk teks-ke-speech rendah sumber daya menggunakan konversi suara non-paralel dengan augmentasi data pitch-shift (2022), Ryo Terashima et al. [PDF]
Fastdiff: Model difusi bersyarat cepat untuk sintesis wicara berkualitas tinggi (2022), Rongjie Huang et al. [PDF]
Fast Grad-TTS: Menuju pembuatan bicara berbasis difusi yang efisien pada CPU (2022), Ivan Vovk et al. [[PDF]
Glow-Wavegan 2: Sintesis Teks-ke-Teks-Kualitas Tinggi dan Konversi Suara Apa pun (2022), Yi Lei et al. [PDF]
HiFi ++: Kerangka kerja terpadu untuk vocoding saraf, ekstensi bandwidth dan peningkatan bicara (2022), Pavel Andreev et al. [PDF]
IQDUBBING: Pemodelan prosodi berdasarkan representasi pidato diskrit untuk konversi suara ekspresif (2022), Wendong Gan et al. [PDF]
ISTFTNET: Vocoder Mel-Spectrogram yang cepat dan ringan menggabungkan transformasi Fourier pendek-waktu terbalik (2022), Takuhiro Kaneko et al. [PDF]
Teks-ke-ke-end-ke-end-end-fidelity dengan generasi multi-band dan Fourier Transformasi waktu pendek terbalik (2022), Masaya Kawamura et al. [PDF]
Sintesis pidato saraf pada sepatu kets: Meningkatkan efisiensi LPCNET (2022), Jean-Marc Valin et al. [PDF]
Nansy ++: Sintesis suara terpadu dengan analisis saraf dan sintesis (2022), Hyeong-seok Choi et al. [PDF]
PriorGrad: Meningkatkan model difusi denoising bersyarat dengan adaptif yang bergantung pada data sebelumnya (2022), Sang-Gil Lee et al. [PDF]
PromptTTS: Teks-ke-speech yang dapat dikendalikan dengan deskripsi teks (2022), Zhifang Guo et al. [PDF]
SANE-TTS: Teks multibahasa multibahasa yang stabil dan alami (2022), Hyunjae Cho et al. [PDF]
STFT-Domain Neural Speech Peningkatan dengan latensi algoritmik yang sangat rendah (2022), Zhong-Qiu Wang et al. [PDF]
Sintesis wicara tanpa pengawasan yang sederhana dan efektif (2022), Alexander H. Liu et al. [PDF]
Specgrad: Model probabilistik difusi berbasis vokoder saraf dengan pembentukan spektral noise adaptif (2022), Yuma Koizumi et al. [PDF]
Source-filter HiFi-Gan: Cepat dan pitch yang dapat dikendalikan oleh Vocoder Neural Fidelity (2022), Reo Yoneyama et al. [PDF]
Trinitts: TT end-to-end yang dapat dikendalikan dengan pitch tanpa pelengkap eksternal (2022), Yoon-Cheol Ju et al. [PDF]
Transfer lintas-bahasa nol-shot menggunakan enkoder multi-stream dan representasi speaker yang efisien (2022), Yibin Zheng et al. [PDF]
Instruktur: Pemodelan TTS Ekspresif dalam Ruang Laten Discrete dengan Prompt Gaya Bahasa Alami (2023), Dongchao Yang et al. [PDF]
Matcha-TTS: Arsitektur TTS cepat dengan pencocokan aliran bersyarat (2023), Shivam Mehta et al. [PDF]
MEGA-TTS: Teks-ke-pidato nol pada skala dengan bias induktif intrinsik (2023), Ziyue Jiang et al. [PDF]
MEGA-TTS 2: Teks-ke-pidato nol-shot dengan permintaan pidato panjang sewenang-wenang (2023), Ziyue Jiang et al. [PDF]
Model N-Gram berbasis kelas bahasa alami (1992), Peter F. Brown et al. [PDF]
Sebuah studi empiris tentang teknik smoothing untuk pemodelan bahasa (1996), Stanley F. Chen et al. [PDF]
Model bahasa probabilistik saraf (2000), Yoshua Bengio et al. [PDF]
Pendekatan statistik baru untuk input pinyin Cina (2000), Zheng Chen et al. [PDF]
Pemodelan Bahasa N-Gram Diskriminatif (2007), Brian Roark et al. [PDF]
Model Bahasa Jaringan Saraf untuk Mesin Metode Input Pinyin Cina (2015), S Chen et al. [PDF]
Pelatihan dan evaluasi yang efisien dari model bahasa jaringan saraf berulang untuk pengenalan suara otomatis (2016), Xie Chen et al. [PDF]
Menjelajahi Batas Pemodelan Bahasa (2016), R Jozefowicz et al. [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]