Audiolm: วิธีการสร้างแบบจำลองภาษาเพื่อการสร้างเสียง (2022), Zalán Borsos และคณะ [PDF]
Audioldm: การสร้างข้อความถึงอัสดิโอที่มีรูปแบบการแพร่กระจายแฝง (2023), Haohe Liu และคณะ [PDF]
Musiclm: การสร้างเพลงจากข้อความ (2023), Andrea Agostinelli และคณะ [PDF]
Moûsai: การสร้างข้อความกับดนตรีที่มีการแพร่กระจายของการแฝงบริบทยาว (2023), Flavio Schneider และคณะ [PDF]
Noise2Music: การสร้างเพลงที่มีการปรับแต่งด้วยแบบจำลองการแพร่กระจาย (2023), Qingqing Huang และคณะ [PDF]
การแนะนำการประยุกต์ใช้ทฤษฎีของฟังก์ชั่นความน่าจะเป็นของกระบวนการ Markov เพื่อการรู้จำเสียงพูดอัตโนมัติ (1982), SE Levinson และคณะ [PDF]
แนวทางความเป็นไปได้สูงสุดในการรับรู้การพูดอย่างต่อเนื่อง (1983), Lalit R. Bahl และคณะ [PDF]
การวัดอะคูสติกที่แตกต่างกันและตัวแยกประเภทหลายตัวสำหรับการรู้จำเสียง (1986), Andrew K. Halberstadt [PDF]
การประมาณข้อมูลร่วมกันสูงสุดของพารามิเตอร์โมเดล Markov ที่ซ่อนอยู่สำหรับการรู้จำเสียงพูด (1986), Lalit R. Bahi และคณะ [PDF]
บทช่วยสอนเกี่ยวกับโมเดล Markov ที่ซ่อนอยู่และแอปพลิเคชันที่เลือกในการรู้จำเสียงพูด (1989), Lawrence R Rabiner [PDF]
การรับรู้ฟอนิมโดยใช้เครือข่ายประสาทหน่วงเวลา (1989), Alexander H. Waibel และคณะ [PDF]
การรับรู้โทรศัพท์ที่ไม่ขึ้นกับลำโพงโดยใช้รุ่นที่ซ่อนอยู่ Markov (1989), Kai-Fu Lee และคณะ [PDF]
โมเดล Markov ที่ซ่อนอยู่สำหรับการรู้จำเสียงพูด (1991), BH Juang และคณะ [PDF]
การทบทวนสถาปัตยกรรม TDNN (Time Delay Neural Network) สำหรับการรู้จำเสียงพูด (2014), Masahide Sugiyamat และคณะ [PDF]
การรับรู้คำพูดการเชื่อมต่อ: วิธีการไฮบริด (1994), Herve Bourlard และคณะ [PDF]
ระบบหลังการประมวลผลเพื่อให้อัตราความผิดพลาดของคำลดลง: การลดลงของการลงคะแนนการลงคะแนนการลงคะแนนการลงคะแนน (Rover) (1997), JG Fiscus [PDF]
การรู้จำเสียงพูดด้วยทรานสดิวเซอร์ไฟไนต์สเตตถ่วงน้ำหนัก (2001), M Mohri และคณะ [PDF]
Framewise Phoneme การจำแนกประเภทกับ LSTM แบบสองทิศทางและสถาปัตยกรรมเครือข่ายประสาทอื่น ๆ (2005), Alex Graves และคณะ [PDF]
การจำแนกประเภทการเชื่อมต่อชั่วคราว: การติดฉลากข้อมูลลำดับที่ไม่ได้รับการตรวจสอบด้วยเครือข่ายประสาทอีกครั้ง (2006), Alex Graves และคณะ [PDF]
ชุดเครื่องมือการรู้จำเสียงพูด Kaldi (2011), Daniel Povey และคณะ [PDF]
การประยุกต์ใช้แนวคิด Neural Networks Convolutional กับโมเดลไฮบริด NN-HMM สำหรับการรู้จำเสียงพูด (2012), Ossama Abdel-Hamid และคณะ [PDF]
เครือข่ายประสาทลึกที่ได้รับการฝึกฝนมาก่อนบริบทสำหรับการรู้จำเสียงพูดขนาดใหญ่ (2012), George E. Dahl และคณะ [PDF]
เครือข่ายประสาทลึกสำหรับการสร้างแบบจำลองอะคูสติกในการรู้จำเสียง (2012), Geoffrey Hinton และคณะ [PDF]
การส่งต่อลำดับด้วยเครือข่ายประสาทที่เกิดขึ้นอีก (2012), Alex Graves และคณะ [PDF]
เครือข่ายประสาทที่ลึกล้ำสำหรับ LVCSR (2013), Tara N. Sainath และคณะ [PDF]
การปรับปรุงเครือข่ายประสาทลึกสำหรับ LVCSR โดยใช้หน่วยเชิงเส้นที่แก้ไขแล้วและออกกลางคัน (2013), George E. Dahl และคณะ [PDF]
การปรับปรุง CD-DNN-HMM ที่มีทรัพยากรต่ำโดยใช้การออกกลางคันและการฝึกอบรม DNN หลายภาษา (2013), Yajie Miao และคณะ [PDF]
การปรับปรุงเครือข่ายประสาทเชิงลึกสำหรับ LVCSR (2013), Tara N. Sainath และคณะ [PDF]
กระบวนทัศน์การเรียนรู้ของเครื่องสำหรับการรู้จำเสียง: ภาพรวม (2013), Li Deng และคณะ [PDF]
ความก้าวหน้าล่าสุดในการเรียนรู้อย่างลึกซึ้งสำหรับการวิจัยการพูดที่ Microsoft (2013), Li Deng และคณะ [PDF]
การรู้จำเสียงพูดด้วยเครือข่ายประสาทที่เกิดขึ้นใหม่ (2013), Alex Graves และคณะ [PDF]
เครือข่าย Maxout Deep Maxout สำหรับการจดจำโทรศัพท์ (2014), LászlóTóthและคณะ [PDF]
เครือข่ายประสาท Convolutional สำหรับการจดจำคำพูด (2014), Ossama Abdel-Hamid และคณะ [PDF]
การรวมการยึดครองของโดเมนเวลาและความถี่ในการรับรู้โทรศัพท์เครือข่าย Neural Neural (2014), LászlóTóth [PDF]
คำพูดลึก: ปรับขนาดการรู้จำเสียงพูดแบบ end-to-end (2014), Awni Y. Hannun และคณะ [PDF]
การจดจำคำพูดต่อเนื่องแบบครบวงจรโดยใช้ NN ที่เกิดขึ้นตามความสนใจ: ผลลัพธ์แรก (2014), Jan Chorowski และคณะ [PDF]
คำศัพท์ขนาดใหญ่ครั้งแรกการจดจำการพูดอย่างต่อเนื่องโดยใช้ DNNS แบบกำเริบสองทิศทาง (2014), Andrew L. Maas และคณะ [PDF]
สถาปัตยกรรมเครือข่ายประสาทเทียมระยะยาวระยะยาวสำหรับการสร้างแบบจำลองอะคูสติกขนาดใหญ่ (2014), Hasim Sak et al. [PDF]
การจดจำคำพูดที่ใช้ CNN ที่แข็งแกร่งด้วย Gabor Filter Kernels (2014), Shuo-Yiin Chang และคณะ [PDF]
Stochastic Pooling Maxout Networks สำหรับการรู้จำเสียงพูดที่มีทรัพยากรต่ำ (2014), Meng Cai และคณะ [PDF]
สู่การรับรู้การพูดแบบ end-to-end ด้วยเครือข่ายประสาทอีกครั้ง (2014), Alex Graves และคณะ [PDF]
Transducer ประสาท (2015), N Jaitly และคณะ [PDF]
โมเดลที่ใช้ความสนใจสำหรับการจดจำคำพูด (2015), Jan Chorowski และคณะ [PDF]
การวิเคราะห์ระบบการรู้จำเสียงพูดที่ใช้ CNN โดยใช้คำพูดแบบดิบเป็นอินพุต (2015), Dimitri Palaz และคณะ [PDF]
หน่วยความจำระยะสั้นระยะยาวที่เชื่อมต่ออย่างเต็มที่เครือข่ายประสาทลึก (2015), Tara N. Sainath และคณะ [PDF]
เครือข่ายประสาทเชิงลึกสำหรับการสร้างแบบจำลองอะคูสติกในภาษาทรัพยากรต่ำ (2015), William Chan และคณะ [PDF]
เครือข่ายประสาทลึกสำหรับการรู้จำเสียงพูดหลายช่องทางเดียว (2015), Chao Weng และคณะ [PDF]
Eesen: การจดจำคำพูดแบบ end-to-end โดยใช้แบบจำลอง RNN ลึกและการถอดรหัสแบบใช้ WFST (2015), Y Miao และคณะ [PDF]
แบบจำลองอะคูสติกเครือข่ายประสาทที่เกิดขึ้นได้อย่างรวดเร็วและแม่นยำสำหรับการรู้จำเสียงพูด (2015), Hasim Sak et al. [PDF]
การรับรู้คำพูดการสนทนาที่ปราศจากพจนานุกรมด้วย Neural Networks (2015), Andrew L. Maas และคณะ [PDF]
การฝึกอบรมลำดับออนไลน์ของเครือข่ายประสาทที่เกิดขึ้นอีกด้วยการจำแนกประเภทการเชื่อมต่อชั่วคราว (2015), Kyuyeon Hwang และคณะ [PDF]
ความก้าวหน้าในการจดจำคำพูดทั้งหมด (2016), Geoffrey Zweig และคณะ [PDF]
ความก้าวหน้าในเครือข่ายประสาทที่ลึกมากสำหรับ LVCSR (2016), Tom Sercu และคณะ [PDF]
การจดจำคำพูดขนาดใหญ่ที่ใช้คำศัพท์ขนาดใหญ่จากความสนใจ (2016), DZMITRY Bahdanau และคณะ [PDF]
เครือข่ายประสาทลึกที่ลึกล้ำพร้อมการขยายบริบทและความสนใจในชั้นเรียนที่ชาญฉลาด (2016), Dong Yu et al. [PDF]
Deep Speech 2: การจดจำคำพูดแบบ end-to-end ในภาษาอังกฤษและแมนดาริน (2016), Dario Amodei และคณะ [PDF]
การจดจำคำพูดที่ห่างไกลจากความสนใจแบบ end-to-end กับ Highway LSTM (2016), Hassan Taherian [PDF]
ร่วมกัน CTC-Attention การรับรู้การพูดแบบ end-to-end โดยใช้การเรียนรู้แบบหลายงาน (2016), Suyoun Kim และคณะ [PDF]
ฟัง, เข้าร่วมและการสะกด: เครือข่ายประสาทสำหรับการรู้จำคำพูดการสนทนาขนาดใหญ่ (2016), William Chan และคณะ [PDF]
การสลายตัวของลำดับแฝง (2016), William Chan และคณะ [PDF]
การสร้างแบบจำลองรูปแบบความถี่เวลาด้วย LSTM กับสถาปัตยกรรม Convolutional สำหรับงาน LVCSR (2016), Tara N. Sainath และคณะ [PDF]
แบบจำลองที่เกิดขึ้นอีกสำหรับความสนใจในการได้ยินในการรู้จำเสียงพูดระยะทางหลายไมโครโฟน (2016), Suyoun Kim และคณะ [PDF]
เครือข่ายประสาทที่เกิดขึ้นอีกสำหรับการรับรู้การพูดแบบ end-to-end (2016), Liang Lu et al. [PDF]
สู่การถอดรหัสที่ดีขึ้นและการรวมรูปแบบภาษาตามลำดับกับโมเดลลำดับ (2016), Jan Chorowski และคณะ [PDF]
เครือข่ายประสาทที่ลึกมากสำหรับการจดจำเสียงพูดที่มีเสียงดัง (2016), Yanmin Qian และคณะ [PDF]
เครือข่ายที่ลึกมากสำหรับการรู้จำเสียงพูดแบบ end-to-end (2016), Yu Zhang et al. [PDF]
เครือข่ายประสาทหลายภาษาที่ลึกมากสำหรับ LVCSR (2016), Tom Sercu และคณะ [PDF]
WAV2LETTER: ระบบการรู้จำเสียงพูดแบบ end-to-end (2016), Ronan Collobert และคณะ [PDF]
การรับรู้การพูดคุยทางอารมณ์ตามความรู้สึกของเครือข่ายการพูดด้วยความสนใจ: การศึกษาเกี่ยวกับผลกระทบของคุณสมบัติการป้อนข้อมูลความยาวของสัญญาณและการพูดที่ดำเนินการ (2017), Michael Neumann และคณะ [PDF]
ระบบการรู้จำเสียงพูดอัตโนมัติที่ได้รับการปรับปรุงสำหรับอาหรับ (2017), Mohamed Amine Menacer และคณะ [PDF]
ความก้าวหน้าในการรับรู้คำพูดแบบ end-to-end ร่วมกับ CTC ร่วมกับตัวเข้ารหัส CNN ลึกและ RNN-LM (2017), Takaaki Hori และคณะ [PDF]
เครือข่ายของเครือข่ายประสาทลึกสำหรับการรู้จำเสียงพูดระยะไกล (2017), Mirco Ravanelli และคณะ [PDF]
โมเดลลำดับต่อลำดับออนไลน์สำหรับการรู้จำเสียงที่มีเสียงดัง (2017), Chung-Cheng Chiu และคณะ [PDF]
เทคนิคการจัดกลุ่มลำโพงที่ไม่ได้รับการดูแลโดยใช้ SOM และ i-vectors สำหรับระบบการรู้จำเสียงพูด (2017), Hany Ahmed และคณะ [PDF]
การรู้จำเสียงพูดแบบ end-to-end ที่ใช้ความสนใจในภาษาจีนกลาง (2017), C Shan และคณะ [PDF]
การสร้างโมเดลอะคูสติก DNN สำหรับการรู้จำคำศัพท์ขนาดใหญ่ (2017), Andrew L. Maas และคณะ [PDF]
โมเดลอะคูสติกโดยตรงถึงคำสำหรับการรู้จำเสียงพูดภาษาอังกฤษ (2017), Kartik Audhkhasi และคณะ [PDF]
การเรียนรู้อย่างลึกซึ้งสำหรับการรู้จำเสียงพูดที่แข็งแกร่งด้านสิ่งแวดล้อม: ภาพรวมของการพัฒนาล่าสุด (2017), Zixing Zhang และคณะ [PDF]
การรับรู้คำพูดโทรศัพท์สนทนาภาษาอังกฤษโดยมนุษย์และเครื่องจักร (2017), George Saon และคณะ [PDF]
ESE: เอ็นจิ้นการจดจำคำพูดที่มีประสิทธิภาพพร้อม LSTM เบาบางบน FPGA (2017), Song Han และคณะ [PDF]
การสำรวจการเพิ่มประสิทธิภาพการพูดด้วยเครือข่ายฝ่ายตรงข้ามที่เกิดขึ้นเพื่อการรู้จำเสียงพูดที่แข็งแกร่ง (2017), Chris Donahue และคณะ [PDF]
Deep LSTM สำหรับคำศัพท์ขนาดใหญ่การจดจำการพูดอย่างต่อเนื่อง (2017), Xu Tian และคณะ [PDF]
การทำให้เป็นมาตรฐานของเลเยอร์แบบไดนามิกสำหรับการสร้างแบบจำลองอะคูสติกของระบบประสาทในการรู้จำเสียงพูด (2017), Taesup Kim et al. [PDF]
Gram-CTC: การเลือกหน่วยอัตโนมัติและการสลายตัวของเป้าหมายสำหรับการติดฉลากลำดับ (2017), Hairong Liu และคณะ [PDF]
การปรับปรุงประสิทธิภาพของโมเดลทรานสดิวเซอร์ประสาทออนไลน์ (2017), Tara N. Sainath และคณะ [PDF]
การเรียนรู้ filterbanks จากคำพูดดิบสำหรับการจดจำโทรศัพท์ (2017), Neil Zeghidour และคณะ [PDF]
การรู้จำเสียงพูดแบบ end-to-end Multichannel (2017), Tsubasa Ochiai และคณะ [PDF]
การเรียนรู้แบบหลายงานกับ CTC และ CRF สำหรับการรับรู้การพูด (2017), Liang Lu et al. [PDF]
การประมวลผลสัญญาณหลายช่องด้วยเครือข่ายประสาทลึกสำหรับการรู้จำเสียงพูดอัตโนมัติ (2017), Tara N. Sainath และคณะ [PDF]
การจดจำคำพูดหลายภาษาด้วยรุ่น end-to-end เดียว (2017), Shubham Toshniwal และคณะ [PDF]
การปรับอัตราความผิดพลาดของคำที่คาดหวังให้เหมาะสมผ่านการสุ่มตัวอย่างสำหรับการรู้จำเสียงพูด (2017), Matt Shannon [PDF]
เครือข่าย CTC ที่ตกค้างสำหรับการรู้จำเสียงพูดอัตโนมัติ (2017), Yisen Wang และคณะ [PDF]
LSTM ที่เหลือ: การออกแบบสถาปัตยกรรมที่เกิดขึ้นใหม่สำหรับการรู้จำเสียงพูดระยะไกล (2017), Jaeyoung Kim และคณะ [PDF]
แบบจำลองที่เกิดขึ้นอีกสำหรับความสนใจในการได้ยินในการรู้จำเสียงพูดระยะทางหลายไมโครโฟน (2017), Suyoun Kim และคณะ [PDF]
ลดอคติในแบบจำลองการพูดการผลิต (2017), Eric Battenberg และคณะ [PDF]
การรู้จำเสียงพูดที่แข็งแกร่งโดยใช้เครือข่ายฝ่ายตรงข้าม (2017), Anuroop Sriram และคณะ [PDF]
การจดจำคำพูดที่ทันสมัยด้วยโมเดลลำดับต่อลำดับ (2017), Chung-Cheng Chiu และคณะ [PDF]
สู่การรู้จำเสียงพูดแบบ end-to-end ภาษา (2017), Suyoun Kim et al. [PDF]
การเร่งรูปแบบการรับรู้การพูดภาษาออนไลน์ของระบบประสาทแบบใหม่ (2018), K Lee et al. [PDF]
รูปแบบการใช้งาน CTC แบบไฮบริดที่ได้รับการปรับปรุงสำหรับการจดจำคำพูด (2018), Zhe Yuan และคณะ [PDF]
ไฮบริด CTC-Attention การรู้จำเสียงพูดแบบ end-to-end โดยใช้หน่วย Subword (2018), Zhangyu Xiao และคณะ [PDF]
Specaugment: วิธีการเพิ่มข้อมูลอย่างง่ายสำหรับการรู้จำเสียงพูดอัตโนมัติ (2019), Daniel S. Park และคณะ [PDF]
VQ-WAV2VEC: การเรียนรู้ด้วยตนเองของการเป็นตัวแทนการพูดแบบไม่ต่อเนื่อง (2019), Alexei Baevski และคณะ [PDF]
ประสิทธิผลของการฝึกอบรมก่อนการดูแลตนเองเพื่อการรู้จำเสียงพูด (2020), Alexei Baevski และคณะ [PDF]
ปรับปรุงการฝึกอบรมนักเรียนที่มีเสียงดังสำหรับการรู้จำเสียงพูดอัตโนมัติ (2020), Daniel S. Park, et al. [PDF]
ContextNet: การปรับปรุงเครือข่ายประสาทแบบ Convolutional สำหรับการรู้จำเสียงพูดอัตโนมัติด้วยบริบททั่วโลก (2020), Wei Han, et al. [PDF]
conformer: หม้อแปลงที่มีการควบคุมการใช้คำพูด (2020), Anmol Gulati, et al. [PDF]
ในการเปรียบเทียบโมเดล end-to-end ยอดนิยมสำหรับการรู้จำเสียงพูดขนาดใหญ่ (2020), Jinyu Li et al. [PDF]
การเรียนรู้ที่ไม่ได้รับการดูแลตนเองที่มีความคมชัดสำหรับการเป็นตัวแทนของเสียง (2021), Melikasadat Emami และคณะ [PDF]
การฝึกอบรมที่มีประสิทธิภาพของหม้อแปลงเสียงด้วย Patchout (2021), Khaled Koutini และคณะ [PDF]
MixSpeech: การเพิ่มข้อมูลสำหรับการรู้จำเสียงพูดอัตโนมัติที่มีทรัพยากรต่ำ (2021), Linghui Meng และคณะ [PDF]
การเรียนรู้แบบหลายเข้ารหัสและการส่งกระแสข้อมูลสำหรับการรู้จำเสียงพูดอัตโนมัติแบบ end-end-to-end (2021), Timo Lohrenz และคณะ [PDF]
Specaugment ++: วิธีการเพิ่มข้อมูลพื้นที่ที่ซ่อนอยู่สำหรับการจำแนกฉากอะคูสติก (2021), Helin Wang และคณะ [PDF]
Specmix: วิธีการเพิ่มข้อมูลตัวอย่างแบบผสมสำหรับการฝึกอบรมด้วยคุณสมบัติโดเมนความถี่เวลา (2021), Gwantae Kim et al. [PDF]
ประวัติความเป็นมาของการรับรู้การพูดถึงปี 2573 (2021), Awni Hannun และคณะ [PDF]
การแปลงด้วยเสียงสามารถปรับปรุง ASR ในการตั้งค่าทรัพยากรต่ำมาก (2021), Matthew Baas และคณะ [PDF]
ทำไม CTC จึงส่งผลให้เกิดพฤติกรรมที่ยอดเยี่ยม? (2021), Albert Zeyer และคณะ [PDF]
E2E segmenter: การแบ่งส่วนร่วมและการถอดรหัสสำหรับ ASR แบบยาว (2022), W. Ronny Huang และคณะ [PDF]
การแยกแหล่งที่มาของเพลงด้วยการไหลแบบกำเนิด (2022), Ge Zhu และคณะ [PDF]
การปรับปรุงการเป็นตัวแทนการพูดที่ดูแลตนเองโดยผู้พูด (2022), Kaizhi Qian และคณะ [PDF]
การรับรู้การพูดที่แข็งแกร่งผ่านการกำกับดูแลที่อ่อนแอขนาดใหญ่ (2022), Alec Radford และคณะ [PDF]
เกี่ยวกับสถาปัตยกรรมแบบถอดรหัสอย่างเดียวสำหรับการรวมรูปแบบการพูดและการรวมรูปแบบภาษาขนาดใหญ่ (2023), Jian Wu et al. [PDF]
การตรวจสอบลำโพงโดยใช้แบบจำลองผสมแบบเกาส์เซียน (2000), Douglas A.Reynolds และคณะ [PDF]
บทช่วยสอนเกี่ยวกับการตรวจสอบลำโพงที่ไม่ขึ้นกับข้อความ (2004), Frédéric Bimbot และคณะ [PDF]
เครือข่ายประสาทลึกสำหรับการตรวจสอบลำโพงที่ขึ้นกับข้อความขนาดเล็ก (2014), E Variani และคณะ [PDF]
เวกเตอร์ลำโพงลึกสำหรับการตรวจสอบลำโพงที่ไม่ขึ้นกับข้อความกึ่งอิสระ (2015), Lantian Li et al. [PDF]
ลำโพงลึก: ระบบฝังผู้พูดประสาทแบบ end-to-end (2017), Chao Li et al. [PDF]
การเรียนรู้คุณสมบัติของลำโพงลึกสำหรับการตรวจสอบลำโพงที่ไม่ขึ้นกับข้อความ (2017), Lantian Li et al. [PDF]
การตรวจสอบลำโพงลึก: เราต้องจบลงหรือไม่? (2017), Dong Wang และคณะ [PDF]
ลำโพง diarization กับ LSTM (2017), Quan Wang และคณะ [PDF]
การตรวจสอบลำโพงที่ไม่ขึ้นกับข้อความโดยใช้เครือข่ายประสาท 3 มิติ (2017), Amirsina Torfi และคณะ [PDF]
การตรวจสอบผู้พูดที่ไม่ขึ้นกับข้อความแบบ end-to-end ด้วยการสูญเสีย triplet ในคำพูดสั้น ๆ (2017), Chunlei Zhang และคณะ [PDF]
การฝังเครือข่ายประสาทลึกสำหรับการตรวจสอบลำโพงที่ไม่ขึ้นกับข้อความ (2017), David Snyder และคณะ [PDF]
ฝังลึกการเลือกปฏิบัติอย่างลึกล้ำสำหรับการตรวจสอบลำโพงที่มีประสิทธิภาพระยะเวลา (2018), Na Li et al. [PDF]
การเรียนรู้คุณสมบัติการเลือกปฏิบัติสำหรับการระบุและการตรวจสอบของผู้พูด (2018), Sarthak Yadav และคณะ [PDF]
การสูญเสีย softmax ขนาดใหญ่สำหรับการตรวจสอบลำโพง (2019), Yi Liu และคณะ [PDF]
การปรับปรุงคุณสมบัติที่ไม่ได้รับการดูแลสำหรับการตรวจสอบลำโพง (2019), Phani Sankar Nidadavolu และคณะ [PDF]
การปรับปรุงคุณสมบัติด้วยการสูญเสียคุณสมบัติลึกสำหรับการตรวจสอบลำโพง (2019), Saurabh Kataria และคณะ [PDF]
การสูญเสีย end2end ทั่วไปสำหรับการตรวจสอบลำโพง (2019), Li Wan และคณะ [PDF]
การเข้ารหัสพีระมิดเชิงพื้นที่ด้วยการทำให้เป็นมาตรฐานความยาวนูนสำหรับการตรวจสอบลำโพงที่ไม่ขึ้นกับข้อความ (2019), Youngmoon Jung et al. [PDF]
VOXSRC 2019: ความท้าทายการรับรู้ของผู้พูด Voxceleb คนแรก (2019), ลูกชาย Chung และคณะ [PDF]
แต่คำอธิบายระบบไปยัง Voxceleb ลำโพงการจดจำการรับรู้ 2019 (2019), Hossein Zeinali และคณะ [PDF]
คำอธิบายระบบ R&D ID สำหรับความท้าทายการตรวจสอบลำโพงระยะสั้น 2021 (2021), Alenin และคณะ [PDF]
การแปลงด้วยเสียงโดยใช้เครือข่ายประสาทเทียมระยะยาวแบบสองทิศทางแบบลึก (2015), Lifa Sun และคณะ [PDF]
การออกเสียงด้านหลังสำหรับการแปลงเสียงแบบหลายต่อหนึ่งโดยไม่ต้องฝึกอบรมข้อมูลแบบขนาน (2016), Lifa Sun และคณะ [PDF]
Stargan-VC: การแปลงเสียงแบบไม่ขนานกันแบบขนานกับเครือข่ายฝ่ายตรงข้ามดาวฤกษ์ (2018), Hirokazu Kameoka et al. [PDF]
AUTOVC: การถ่ายโอนสไตล์การถ่ายภาพด้วยเสียงแบบไม่มีการยิงด้วยการสูญเสียอัตโนมัติ (2019), Kaizhi Qian และคณะ [PDF]
Stargan-VC2: การทบทวนวิธีการแบบมีเงื่อนไขสำหรับการแปลงเสียงจาก Stargan (2019), Takuhiro Kaneko และคณะ [PDF]
การเรียนรู้แบบ end-to-end ที่ไม่ได้รับการดูแลของหน่วยภาษาศาสตร์ที่ไม่ต่อเนื่องสำหรับการแปลงเสียง (2019), Andy T. Liu และคณะ [PDF]
ลำโพงที่ใช้ความสนใจฝังตัวสำหรับการแปลงเสียงเดียว (2020), Tatsuma Ishihara และคณะ [PDF]
การแปลงเสียงแบบไม่ขนานกันหลายแบบที่สอดคล้องกับ F0 ผ่านทาง Autoencoder แบบมีเงื่อนไข (2020), Kaizhi Qian et al. [PDF]
การแปลงเสียงที่ไม่ได้รับการยอมรับการสังเคราะห์ด้วยการเรียนรู้ด้วยเสียงที่ไม่ขนานกัน (2020), Jing-Xuan Zhang et al. [PDF]
สตาร์แกนที่ได้รับการปรับปรุงให้ดีขึ้นสำหรับการแปลงเสียงทางอารมณ์: การเพิ่มคุณภาพเสียงและการเพิ่มข้อมูล (2021), Xiangheng เขาและคณะ [PDF]
CRANK: ซอฟต์แวร์โอเพ่นซอร์สสำหรับการแปลงเสียงที่ไม่ใช่แบบขนานโดยใช้ Autoencoder Variational Variational (2021), Kazuhiro Kobayashi et al. [PDF]
CVC: การเรียนรู้แบบตัดกันสำหรับการแปลงเสียงที่ไม่ใช่แบบขนาน (2021), Tingle Li et al. [PDF]
Nolevc: ไปสู่การแปลงเสียงแบบศูนย์คุณภาพสูง (2021), Shijun Wang และคณะ [PDF]
ในการสร้างแบบจำลองฉันทลักษณ์สำหรับการแปลงด้วยเสียงอิง ASR+TTS (2021), Wen-Chin Huang และคณะ [PDF]
Starganv2-VC: กรอบการทำงานที่หลากหลายและไม่ได้รับการดูแลและไม่ขนานสำหรับการเปลี่ยนเสียงที่ทำให้เกิดเสียงตามธรรมชาติ (2021), Yinghao Aaron Li et al. [PDF]
การแปลงเสียงแบบไม่มีการยิงผ่านการเรียนรู้การเป็นตัวแทนของฉันเอง (2021), Shijun Wang และคณะ [PDF]
การประมาณค่าสัญญาณจากการแปลงฟูริเยร์ระยะเวลาสั้น ๆ ที่ได้รับการแก้ไข (1993), Daniel W. Griffin และคณะ [PDF]
การสังเคราะห์ข้อความถึงการพูด (2009), Paul Taylor และคณะ [PDF]
อัลกอริทึม Griffin-Lim ที่รวดเร็ว (2013), Nathanael Perraudin และคณะ [PDF]
การสังเคราะห์ TTS ด้วยเครือข่ายประสาทแบบสองทิศทางแบบสองทิศทาง (2014), Yuchen Fan และคณะ [PDF]
ขั้นตอนแรกสู่การสังเคราะห์ Parametric TTS แบบ end-to-end: การสร้างพารามิเตอร์สเปกตรัมด้วยความสนใจของระบบประสาท (2016), Wenfu Wang และคณะ [PDF]
ความก้าวหน้าล่าสุดใน Google REAL-TIME SELECTION UNIT SELECTION SYNTHESIZER (2016), Xavi Gonzalvo และคณะ [PDF]
Samplernn: โมเดลการสร้างระบบประสาทแบบ end-to-end ที่ไม่มีเงื่อนไข (2016), Soroush Mehri และคณะ [PDF]
Wavenet: รุ่นกำเนิดสำหรับ Raw Audio (2016), Aäron van den Oord และคณะ [PDF]
Char2wav: การสังเคราะห์คำพูดแบบ end-to-end (2017), J Sotelo และคณะ [PDF]
เสียงลึก: ข้อความประสาทแบบเรียลไทม์ (2017), Sercan O. Arik และคณะ [PDF]
Deep Voice 2: Text-to-to-speech (2017), Sercan Arik et al. [PDF]
Deep Voice 3: 2000-Speaker Neural Text-to-Speech (2017), Wei Ping และคณะ [PDF]
การสังเคราะห์ TTS ตามธรรมชาติโดยการปรับอากาศ Wavenet ในการทำนาย MEL Spectrogram (2017), Jonathan Shen และคณะ [PDF]
Wavenet แบบขนาน: การสังเคราะห์คำพูดที่มีความเที่ยงตรงสูงอย่างรวดเร็ว (2017), Aaron van den Oord และคณะ [PDF]
การสังเคราะห์การพูดพารามิเตอร์ทางสถิติโดยใช้เครือข่ายฝ่ายตรงข้ามกำเนิดภายใต้กรอบการเรียนรู้แบบหลายงาน (2017), S Yang และคณะ [PDF]
Tacotron: ไปสู่การสังเคราะห์คำพูดแบบ end-to-end (2017), Yuxuan Wang และคณะ [PDF]
การเปิดเผยปัจจัยสไตล์แฝงสำหรับการสังเคราะห์การพูดที่แสดงออก (2017), Yuxuan Wang และคณะ [PDF]
VOICELOOP: เสียงที่เหมาะสมและการสังเคราะห์ผ่าน phonological loop (2017), Yaniv Taigman และคณะ [PDF]
คลาริเน็ต: การสร้างคลื่นแบบขนานในการพูดแบบ end-to-end to-to-speech (2018), Wei Ping และคณะ [PDF]
เครือข่ายหน่วยความจำตามลำดับฟีดไปข้างหน้าลึกสำหรับการสังเคราะห์เสียงพูด (2018), Mengxiao BI และคณะ [PDF]
LPCNET: การปรับปรุงการสังเคราะห์การพูดด้วยระบบประสาทผ่านการทำนายเชิงเส้น (2018), Jean-Marc Valin และคณะ [PDF]
การเรียนรู้การเป็นตัวแทนแฝงสำหรับการควบคุมสไตล์และการถ่ายโอนในการสังเคราะห์คำพูดแบบ end-to-end (2018), Ya-Jie Zhang และคณะ [PDF]
การโคลนเสียงประสาทด้วยตัวอย่างไม่กี่ (2018), Sercan O. Arıkและคณะ [PDF]
การทำนายรูปแบบการพูดที่แสดงออกจากข้อความในการสังเคราะห์การพูดแบบ end-to-end (2018), Daisy Stanton และคณะ [PDF]
โทเค็นสไตล์: การสร้างแบบจำลองสไตล์ที่ไม่ได้รับการควบคุมการควบคุมและการถ่ายโอนในการสังเคราะห์คำพูดแบบ end-to-end (2018), Y Wang et al. [PDF]
ไปสู่การถ่ายโอนฉันทลักษณ์แบบครบวงจรสำหรับการสังเคราะห์คำพูดที่แสดงออกด้วย Tacotron (2018), RJ Skerry-Ryan และคณะ [PDF]
ทุเรียน: เครือข่ายความสนใจที่ได้รับข้อมูลระยะเวลาสำหรับการสังเคราะห์หลายรูปแบบ (2019), Chengzhu Yu และคณะ [PDF]
การผกผันของสเปกโทรครัมอย่างรวดเร็วโดยใช้เครือข่ายประสาทแบบหลายหัว (2019), SöArıkและคณะ [PDF]
Fastspeech: ข้อความที่รวดเร็วแข็งแกร่งและควบคุมได้ต่อการพูด (2019), Yi Ren และคณะ [PDF]
การเรียนรู้ที่จะพูดอย่างคล่องแคล่วในภาษาต่างประเทศ: การสังเคราะห์คำพูดหลายภาษาและการโคลนนิ่งเสียงข้ามภาษา (2019), Yu Zhang และคณะ [PDF]
Melnet: แบบจำลองการกำเนิดสำหรับเสียงในโดเมนความถี่ (2019), Sean Vasquez และคณะ [PDF]
การสังเคราะห์คำพูดแบบ end-to-end หลายลำโพง (2019), Jihyun Park และคณะ [PDF]
MELGAN: เครือข่ายฝ่ายตรงข้ามกำเนิดสำหรับการสังเคราะห์รูปคลื่นแบบมีเงื่อนไข (2019), Kundan Kumar และคณะ [PDF]
การสังเคราะห์การพูดด้วยระบบประสาทด้วยเครือข่ายหม้อแปลง (2019), Naihan Li และคณะ [PDF]
ข้อความประสาทแบบคู่ขนาน (2019), Kainan Peng และคณะ [PDF]
การเป็นตัวแทนข้อความที่ผ่านการฝึกอบรมมาก่อนเพื่อปรับปรุงการประมวลผลข้อความส่วนหน้าในการสังเคราะห์ข้อความภาษาจีนกลางเป็นคำพูด (2019), Bing Yang et al. [PDF]
Wavegan แบบขนาน: รูปแบบการสร้างรูปคลื่นที่รวดเร็วขึ้นอยู่กับเครือข่ายที่มีความเป็นปฏิปักษ์ต่อการกำเนิดด้วยสเปคตรัมหลายความละเอียด (2019), Ryuichi Yamamoto et al. [PDF] มันออกมาในเวลาเดียวกับ Melgan ในขณะที่ไม่มีใครอ้างถึงกันและกัน ... นอกจากนี้ฉันคิดว่าเสียงเกาส์เซียนไม่จำเป็นเนื่องจาก Melspec มีข้อมูลที่แข็งแกร่งมาก
การใช้คำพูดที่ไม่เชื่อเรื่องพระเจ้าสำหรับการพูดหลายพูดกับ Samplernn (2019), David Alvarez และคณะ [PDF]
การสร้างแบบจำลองอะคูสติกลำดับที่มีความแข็งแกร่งด้วยความสนใจแบบโมโนโทนิกแบบขั้นตอนสำหรับ TTS ของระบบประสาท (2019), Mutian เขาและคณะ [PDF]
สู่การถ่ายโอนการเรียนรู้สำหรับการสังเคราะห์การพูดแบบครบวงจรจากแบบจำลองภาษาที่ผ่านการฝึกอบรมล่วงหน้า (2019), Wei Fang และคณะ [PDF]
ถ่ายโอนการเรียนรู้จากการตรวจสอบลำโพงไปยังการสังเคราะห์ข้อความหลายข้อความเป็นคำพูด (2019), Ye Jia และคณะ [PDF]
Waveflow: แบบจำลองการไหลแบบกะทัดรัดสำหรับ Raw Audio (2019), Wei Ping และคณะ [PDF]
Waveglow: เครือข่ายกำเนิดที่ใช้การไหลสำหรับการสังเคราะห์เสียงพูด (2019), R Prenger และคณะ [PDF]
Aligntts: ระบบการป้อนข้อความไปข้างหน้าอย่างมีประสิทธิภาพโดยไม่มีการจัดตำแหน่งที่ชัดเจน (2020), Zhen Zeng และคณะ [PDF]
BOFFIN TTS: การปรับลำโพงไม่กี่ตัวโดยการเพิ่มประสิทธิภาพแบบเบย์ (2020), Henry B.Moss และคณะ [PDF]
Bunched LPCNET: Vocoder สำหรับระบบข้อความประสาทต่อการพูด (2020), Ravichander Vipperla และคณะ [PDF]
Copycat: การถ่ายโอนฉันทลักษณ์อย่างละเอียดหลายต่อหลายครั้งสำหรับการพูดแบบข้อความประสาท (2020), Sri Karlapati และคณะ [PDF]
EfficientTts: สถาปัตยกรรมข้อความเป็นคำพูดที่มีประสิทธิภาพและมีคุณภาพสูง (2020), Chenfeng Miao และคณะ [PDF]
การพูดถึงการพูดแบบ end-to-end end-to-end (2020), Jeff Donahue และคณะ [PDF]
Fastspeech 2: ข้อความแบบ end-to-end ที่รวดเร็วและคุณภาพสูงและคุณภาพสูง (2020), Yi Ren et al. [PDF]
Flowtron: เครือข่ายกำเนิดแบบโฟลว์แบบอัตโนมัติสำหรับการสังเคราะห์ข้อความเป็นคำพูด (2020), Rafael Valle และคณะ [PDF]
FLOW-TTS: เครือข่ายที่ไม่ได้เป็นแบบ AUTOREGRESSESS สำหรับข้อความเป็นคำพูดตาม FLOW (2020), Chenfeng Miao และคณะ [PDF]
การสร้างแบบจำลองฉันทลักษณ์แบบมีความละเอียดแบบเรียงลำดับอย่างละเอียดสำหรับการสังเคราะห์การพูดที่ตีความได้ (2020), Guangzhi Sun และคณะ [PDF]
สร้างตัวอย่างข้อความที่หลากหลายและเป็นธรรมชาติโดยใช้ VAE ที่มีความละเอียดเชิงปริมาณและ Prosody ที่เกิดขึ้นจริงก่อน (2020), Guangzhi Sun et al. [PDF]
Glow-TTS: กระแสการกำเนิดสำหรับข้อความเป็นคำพูดผ่านการค้นหาการจัดตำแหน่งแบบ monotonic (2020), Jaehyeon Kim และคณะ [PDF]
HIFI-GAN: เครือข่ายฝ่ายตรงข้ามกำเนิดสำหรับการสังเคราะห์การพูดที่มีประสิทธิภาพและมีความซื่อสัตย์สูง (2020), Jungil Kong และคณะ [PDF]
กลไกความสนใจในสถานที่สำหรับสถานที่สำหรับคำพูดที่มีรูปแบบยาวที่แข็งแกร่ง synthesi (2020), Eric Battenberg และคณะ [PDF]
Multispeech: ข้อความหลายลำโพงในการพูดด้วยหม้อแปลง (2020), Mingjian Chen et al. [PDF]
Tacotron แบบขนาน: TTS ที่ไม่ใช่ Autoregressive และควบคุมได้ (2020), Isaac Elias และคณะ [PDF]
Robutrans: โมเดลข้อความที่ใช้การพูดแบบข้อความที่ใช้เป็นคำพูด (2020), Naihan Li et al. [PDF]
การตรวจสอบลำโพงที่ไม่ขึ้นกับข้อความด้วยเครือข่ายความสนใจแบบคู่ (2020), Jingyu Li et al. [PDF]
Wavegrad: การประเมินการไล่ระดับสีสำหรับการสร้างรูปคลื่น (2020), Nanxin Chen และคณะ [PDF]
Adaspeech: ข้อความที่ปรับตัวได้เป็นคำพูดสำหรับเสียงที่กำหนดเอง (2021), Mingjian Chen และคณะ [PDF]
การสำรวจการสังเคราะห์การพูดของระบบประสาท (2021), Xu Tan และคณะ [PDF]
นักร้อง GAN แบบสตรีมสำหรับการเข้ารหัสคำพูด Wideband ที่อัตราบิตต่ำมาก (2021), Ahmed Mustafa และคณะ [PDF]
การถ่ายโอนอารมณ์ข้ามลำโพงที่ควบคุมได้สำหรับการสังเคราะห์การพูดแบบ end-to-end (2021), Tao Li et al. [PDF]
การโคลนนิ่งเสียงโดยใช้ข้อมูลที่ จำกัด มากในป่า (2021), Dongyang Dai et al. [PDF]
AutoEncoder แบบแปรผันตามเงื่อนไขพร้อมการเรียนรู้ที่เป็นปฏิปักษ์สำหรับการพูดแบบ text-to-end (2021), Jaehyeon Kim et al. [PDF]
Diffwave: แบบจำลองการแพร่กระจายที่หลากหลายสำหรับการสังเคราะห์เสียง (2021), Zhifeng Kong และคณะ [PDF]
Diff-TTS: รูปแบบการแพร่กระจาย denoising สำหรับข้อความถึงคำพูด (2021), Myeonghun Jeong และคณะ [PDF]
Delightfultts: ระบบการสังเคราะห์คำพูดของ Microsoft สำหรับ Blizzard Challenge 2021 (2021), Yanqing Liu และคณะ [PDF]
Fre-Gan: การสังเคราะห์เสียงที่สอดคล้องกับความถี่ที่สอดคล้องกัน (2021), Ji-Hoon Kim และคณะ [PDF]
LPCNET แบบเต็มแบนด์: นักร้องประสาทแบบเรียลไทม์สำหรับเสียง 48 kHz พร้อม CPU (2021), Keisuke Matsubara และคณะ [PDF]
Grad-TTS: โมเดลความน่าจะเป็นในการแพร่กระจายสำหรับข้อความถึงการพูด (2021), Vadim Popov และคณะ [PDF]
Glow-Wavegan: การเรียนรู้การพูดการพูดจากการเข้ารหัสอัตโนมัติ Variational Auto-based สำหรับการสังเคราะห์คำพูดที่ใช้ความเที่ยงตรงสูง (2021), Jian Cong et al. [PDF]
ความดีสูงและความโดดเด่นระดับสากลที่มีความเป็นสากลโดยอิงจาก Multiband Wavernn พร้อมการทำนายเชิงเส้นที่ขับเคลื่อนด้วยข้อมูลสำหรับการสร้างแบบจำลองรูปคลื่นแบบไม่ต่อเนื่อง (2021), Patrick Lumban Tobing และคณะ [PDF]
การสร้างแบบจำลองฉันทลักษณ์แบบลำดับชั้นสำหรับการสังเคราะห์คำพูดที่ไม่ใช่อูเทอเรติก (2021), Chung-Ming Chien และคณะ [PDF]
itoˆtts และ itoˆwave: สมการเชิงอนุพันธ์เชิงเส้นสโตแคสติกเป็นสิ่งที่คุณต้องการสำหรับการสร้างเสียง (2021), Shoule Wu et al. [PDF]
เจ็ตส์: การฝึกอบรมร่วมกันอย่างรวดเร็ว 2 และ hifi-gan สำหรับการจบข้อความจบลงในการพูด (2021), Dan Lim et al. [PDF]
META-VOICE: การถ่ายโอนสไตล์การยิงแบบไม่กี่ครั้งสำหรับการโคลนเสียงที่แสดงออกโดยใช้ Meta Learning (2021), Songxiang Liu และคณะ [PDF]
HMM Neural เป็นสิ่งที่คุณต้องการ (สำหรับ TTS ที่ปราศจากความสนใจคุณภาพสูง) (2021), Shivam Mehta และคณะ [PDF]
การเปลี่ยนระดับเสียงของระบบประสาทและการยืดเวลาด้วย LPCNET ที่ควบคุมได้ (2021), Max Morrison และคณะ [PDF]
หนึ่งการจัดตำแหน่ง TTS เพื่อปกครองพวกเขาทั้งหมด (2021), Rohan Badlani และคณะ [PDF]
Karatuner: ถึงจุดสิ้นสุดการแก้ไขระดับเสียงตามธรรมชาติสำหรับการร้องเพลงในคาราโอเกะ (2021), Xiaobin Zhuang และคณะ [PDF]
PNG Bert: Augmented Bert บนหน่วยเสียงและ Graphemes สำหรับ TTS ประสาท (2021), Ye Jia และคณะ [PDF]
Tacotron 2: แบบจำลอง TTS ที่ไม่ใช่ระบบประสาทแบบ Autoregressive พร้อมการสร้างแบบจำลองระยะเวลาที่แตกต่างกัน (2021), Isaac Elias และคณะ [PDF]
PortaSpeech: ข้อความพกพาและคุณภาพสูงแบบพกพา (2021), Yi Ren และคณะ [PDF]
การสร้างแบบจำลองอะคูสติกที่ใช้หม้อแปลงสำหรับการสังเคราะห์การพูดสตรีมมิ่ง (2021), Chunyang Wu et al. [PDF]
TRIPLE M: ระบบการพูดแบบข้อความประสาทเป็นคำพูดที่ใช้งานได้จริงด้วยความสนใจแบบหลายคำแนะนำและ LPCNET แบบหลายเวลาหลายวง (2021), Shilun Lin et al. [PDF]
TalkNet 2: แบบจำลองการแยกแบบแยกส่วนที่ไม่สามารถแยกได้อย่างลึกซึ้งสำหรับการสังเคราะห์คำพูดที่มีระดับเสียงและระยะเวลาที่ชัดเจน (2021), Stanislav Beliaev et al. [PDF] TalkNet2 มีความแตกต่างเล็กน้อยจาก TalkNet ดังนั้นฉันจึงไม่รวม TalkNet ที่นี่
สู่การควบคุมสไตล์หลายระดับสำหรับการสังเคราะห์การพูดที่แสดงออก (2021), Xiang Li et al. [PDF]
Source-filter-filter GAN: เครือข่ายตัวกรองแหล่งรวมตามการแยกตัวประกอบของ Wavegan คู่ขนานแบบกึ่งขนาน (2021), Reo Yoneyama และคณะ [PDF]
Yourtts: ไปสู่ TTS หลายลำโพงที่ไม่มีการยิงและการแปลงเสียงแบบไม่มีการยิงสำหรับทุกคน (2021), Edresson Casanova และคณะ [PDF]
Avocodo: เครือข่ายฝ่ายตรงข้ามที่เกิดขึ้นสำหรับ Vocoder ที่ปราศจากสิ่งประดิษฐ์ (2022), Taejun Bak และคณะ [PDF]
การเรียนรู้ที่สอดคล้องกับผู้พูดที่มีความสอดคล้องโดยใช้ข้อมูลคำพูดที่ไม่ได้รับการอธิบายสำหรับการพูดหลายข้อความแบบหลายลำโพง (2022), Byoung Jin Choi et al. [PDF]
Bunched LPCNET2: นักร้องประสาทที่มีประสิทธิภาพครอบคลุมอุปกรณ์จากคลาวด์ไปจนถึงขอบ (2022), Sangjun Park และคณะ [PDF]
การถ่ายโอนอารมณ์ข้ามสัญญาณสำหรับการพูดแบบข้อความที่มีทรัพยากรต่ำโดยใช้การแปลงเสียงแบบไม่ขนานกับการเพิ่มข้อมูลระยะพิทช์ (2022), Ryo Terashima et al. [PDF]
FastDiff: แบบจำลองการแพร่กระจายอย่างรวดเร็วสำหรับการสังเคราะห์เสียงพูดคุณภาพสูง (2022), Rongjie Huang และคณะ [PDF]
Fast Grad-TTS: ไปสู่การสร้างคำพูดที่มีประสิทธิภาพในการแพร่กระจายบน CPU (2022), Ivan Vovk และคณะ [[PDF]
Glow-Wavegan 2: การสังเคราะห์ข้อความเป็นศูนย์ถึงคุณภาพสูงและการแปลงเสียงใด ๆ (2022), Yi Lei et al. [PDF]
HIFI ++: เฟรมเวิร์กแบบครบวงจรสำหรับการเปล่งประกายประสาทส่วนขยายแบนด์วิดท์และการเพิ่มประสิทธิภาพการพูด (2022), Pavel Andreev et al. [PDF]
IQDubbing: การสร้างแบบจำลองฉันทลักษณ์ขึ้นอยู่กับการเป็นตัวแทนการพูดแบบไม่ต่อเนื่องของตนเองสำหรับการแปลงเสียงที่แสดงออก (2022), Wendong Gan และคณะ [PDF]
Istftnet: Vocoder Mel-Spectrogram ที่รวดเร็วและเบาและมีน้ำหนักเบาซึ่งรวมการแปลงฟูริเยร์แบบสั้น ๆ (2022), Takuhiro Kaneko et al. [PDF]
น้ำหนักเบาและความเที่ยงตรงสูงแบบ end-to-end to-to-speech ด้วยการสร้างแบบหลายวง [PDF]
การสังเคราะห์การพูดของระบบประสาทบนเชือกผูกรองเท้า: ปรับปรุงประสิทธิภาพของ LPCNET (2022), Jean-Marc Valin และคณะ [PDF]
NANSY ++: การสังเคราะห์เสียงแบบครบวงจรด้วยการวิเคราะห์ระบบประสาทและการสังเคราะห์ (2022), Hyeong-Seok Choi และคณะ [PDF]
PriorGrad: การปรับปรุงแบบจำลองการแพร่กระจายแบบ denoising แบบมีเงื่อนไขด้วยการปรับตัวขึ้นอยู่กับข้อมูลก่อน (2022), Sang-Gil Lee และคณะ [PDF]
พรอมต์ท์: ข้อความที่ควบคุมได้ด้วยคำอธิบายข้อความ (2022), Zhifang Guo และคณะ [PDF]
SANE-TTS: ข้อความที่มีความเสถียรและเป็นธรรมชาติหลายภาษาพูดหลายภาษา (2022), Hyunjae Cho et al. [PDF]
การเพิ่มประสิทธิภาพการพูดของระบบประสาท STFT-domain ด้วยเวลาแฝงอัลกอริทึมที่ต่ำมาก (2022), Zhong-Qiu Wang และคณะ [PDF]
การสังเคราะห์คำพูดที่ไม่ได้รับการดูแลอย่างง่ายและมีประสิทธิภาพ (2022), Alexander H. Liu และคณะ [PDF]
Specgrad: การแพร่กระจายของโมเดลความน่าจะเป็นจากการแพร่กระจายของระบบประสาทที่มีการปรับรูปแบบการปรับเปลี่ยนเสียงสเปกตรัม (2022), Yuma Koizumi และคณะ [PDF]
HIFI-GAN แบบกรอง: เร็วและระดับพิทช์ควบคุมความเที่ยงตรงสูง Neural Vocoder (2022), Reo Yoneyama และคณะ [PDF]
Trinitts: TTs แบบ end-to-end ที่ควบคุมได้โดยไม่ต้องมีการจัดตำแหน่งภายนอก (2022), Yoon-Cheol Ju และคณะ [PDF]
การถ่ายโอนแบบข้ามภาษาแบบไม่มีการถ่ายภาพโดยใช้ตัวเข้ารหัสหลายสตรีมและการเป็นตัวแทนลำโพงที่มีประสิทธิภาพ (2022), Yibin Zheng และคณะ [PDF]
คำแนะนำ: การสร้างแบบจำลอง TTS ที่แสดงออกในพื้นที่แฝงแบบไม่ต่อเนื่องพร้อมด้วยรูปแบบภาษาธรรมชาติ (2023), Dongchao Yang และคณะ [PDF]
Matcha-TTS: สถาปัตยกรรม TTS ที่รวดเร็วพร้อมการจับคู่การไหลแบบมีเงื่อนไข (2023), Shivam Mehta และคณะ [PDF]
Mega-TTS: zero-shot text-to-speech ในระดับที่มีอคติอุปนัยภายใน (2023), Ziyue Jiang และคณะ [PDF]
Mega-TTS 2: zero-shot text-to-speech พร้อมด้วยคำพูดที่มีความยาวโดยพลการ (2023), Ziyue Jiang และคณะ [PDF]
รูปแบบ N-GRAM ของภาษาธรรมชาติ (1992), Peter F. Brown และคณะ [PDF]
การศึกษาเชิงประจักษ์ของเทคนิคการปรับให้เรียบสำหรับการสร้างแบบจำลองภาษา (1996), Stanley F. Chen et al. [PDF]
รูปแบบภาษาที่น่าจะเป็นของระบบประสาท (2000), Yoshua Bengio และคณะ [PDF]
วิธีการทางสถิติใหม่สำหรับอินพุตพินอินจีน (2000), เจิ้งเฉินและคณะ [PDF]
การทำแบบจำลองภาษา N-Gram Discriminative (2007), Brian Roark และคณะ [PDF]
โมเดลภาษาเครือข่ายประสาทสำหรับเครื่องมืออินพุตพินอินจีน (2015), S Chen et al. [PDF]
การฝึกอบรมที่มีประสิทธิภาพและการประเมินผลของแบบจำลองภาษาเครือข่ายประสาทที่เกิดขึ้นอีกสำหรับการรู้จำเสียงพูดอัตโนมัติ (2016), Xie Chen และคณะ [PDF]
สำรวจขีด จำกัด ของการสร้างแบบจำลองภาษา (2016), R Jozefowicz และคณะ [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]