تنزيل awesome speech recognition speech synthesis papers - تنزيل رمز مصدر awesome speech recognition speech synthesis papers

رهيبة الكلام التعرف على مكبوتات التذوق

قائمة الورق

نص إلى udio
التعرف على الكلام التلقائي (ASR)
التحقق من المتحدث
تحويل الصوت (VC)
تخليق الكلام (TTS)
نمذجة اللغة
تقديرات الثقة
نمذجة الموسيقى
أوراق مثيرة للاهتمام

نص إلى الصوت

Audiolm: نهج نمذجة اللغة لتوليد الصوت (2022) ، Zalán Borsos et al. [PDF]
Audioldm: توليد نص إلى أذو مع نماذج الانتشار الكامن (2023) ، Haohe Liu et al. [PDF]
MusicLM: توليد الموسيقى من Text (2023) ، Andrea Agostinelli et al. [PDF]
Moûsai: توليد نص إلى Music مع نشر كامنسي طويل (2023) ، Flavio Schneider et al. [PDF]
Noise2Music: توليد الموسيقى المكيف مع نماذج الانتشار (2023) ، Qingqing Huang et al. [PDF]

التعرف على الكلام التلقائي

مقدمة لتطبيق نظرية الوظائف الاحتمالية لعملية Markov للتعرف على الكلام التلقائي (1982) ، Se Levinson et al. [PDF]
نهج احتمال أقصى للتعرف المستمر على الكلام (1983) ، Lalit R. Bahl et al. [PDF]
قياسات صوتية غير متجانسة ومصنفات متعددة للتعرف على الكلام (1986) ، أندرو ك. هالبرستادت. [PDF]
أقصى تقدير للمعلومات المتبادلة لمعلمات نموذج Markov المخفية للتعرف على الكلام (1986) ، Lalit R. Bahi et al. [PDF]
برنامج تعليمي حول نماذج Markov المخفية والتطبيقات المختارة في التعرف على الكلام (1989) ، لورانس آر رابينر. [PDF]
التعرف على الصوتيات باستخدام الشبكات العصبية للوقت (1989) ، ألكساندر هـ. وايبل وآخرون. [PDF]
التعرف على الهاتف المستقل عن السماعات باستخدام نماذج Hidden Markov (1989) ، Kai-Fu Lee et al. [PDF]
نماذج ماركوف المخفية للتعرف على الكلام (1991) ، BH Juang et al. [PDF]
مراجعة TDNN (الشبكة العصبية للتأخير الزمني) للبنية للتعرف على الكلام (2014) ، Masahide Sugiyamat et al. [PDF]
التعرف على خطاب التوصيل: نهج هجين (1994) ، هيرف بورلارد وآخرون. [PDF]
نظام ما بعد المعالجة لإعطاء معدلات خطأ في الكلمات المخفضة: الحد من أخطاء تصويت الإخراج (Rover) (1997) ، JG FISCUS. [PDF]
التعرف على الكلام مع محولات الحالة المحدودة المرجحة (2001) ، M Mohri et al. [PDF]
تصنيف Framewise Phoneme مع LSTM ثنائية الاتجاه وغيرها من بنيات الشبكة العصبية (2005) ، Alex Graves et al. [PDF]
التصنيف الزمني للاتصال: وصف بيانات التسلسل غير المقطوعة مع الشبكات العصبية المتكررة (2006) ، Alex Graves et al. [PDF]
Kaldi Toolkit Toolkit (2011) ، دانييل بوفي وآخرون. [PDF]
تطبيق مفاهيم الشبكات العصبية التلافيفية على نموذج NN-HMM المختلط للتعرف على الكلام (2012) ، Ossama Abdel-Hamid et al. [PDF]
الشبكات العصبية العميقة المعتمدة على السياق قبل التعرف على الكلام الكبير (2012) ، جورج إ. دال وآخرون. [PDF]
الشبكات العصبية العميقة للنمذجة الصوتية في التعرف على الكلام (2012) ، جيفري هينتون وآخرون. [PDF]
نقل التسلسل مع الشبكات العصبية المتكررة (2012) ، Alex Graves et al. [PDF]
الشبكات العصبية التلافيفية العميقة لـ LVCSR (2013) ، Tara N. Sainath et al. [PDF]
تحسين الشبكات العصبية العميقة لـ LVCSR باستخدام الوحدات الخطية المصححة والمتسربة (2013) ، جورج إي دال وآخرون. [PDF]
تحسين CD-DNN-HMM منخفض الموارد باستخدام التدريب المتسرب والتدريب على DNN متعدد اللغات (2013) ، Yajie Miao et al. [PDF]
تحسينات على الشبكات العصبية التلافيفية العميقة لـ LVCSR (2013) ، Tara N. Sainath et al. [PDF]
نماذج التعلم الآلي للتعرف على الكلام: نظرة عامة (2013) ، Li Deng et al. [PDF]
التطورات الحديثة في التعلم العميق لأبحاث الكلام في Microsoft (2013) ، Li Deng et al. [PDF]
التعرف على الكلام مع الشبكات العصبية المتكررة العميقة (2013) ، أليكس جريفز وآخرون. [PDF]
شبكات Maxout العميقة التنازلية للتعرف على الهاتف (2014) ، László Tóth et al. [PDF]
الشبكات العصبية التلافيفية للتعرف على الكلام (2014) ، Ossama Abdel-Hamid et al. [PDF]
الجمع بين إيلاء المجال الزمني والتردد في التعرف على الهاتف القائم على الشبكة العصبية (2014) ، László Tóth. [PDF]
الكلام العميق: توسيع نطاق التعرف على الكلام من طرف إلى طرف (2014) ، Awni Y. Hannun et al. [PDF]
التعرف على الكلام المستمر من طرف إلى طرف باستخدام NN المتكرر القائم على الاهتمام: النتائج الأولى (2014) ، Jan Chorowski et al. [PDF]
أول تمرير كبير المفردات التعرف على الكلام المستمر باستخدام DNNS المتكررة ثنائية الاتجاه (2014) ، أندرو ل. ماس وآخرون. [PDF]
بنيات الشبكة العصبية المتكررة على المدى الطويل على المدى القصير للنمذجة الصوتية واسعة النطاق (2014) ، Hasim Sak et al. [PDF]
التعرف على الكلام القوي القائم على CNN مع Gabor Filter Kernels (2014) ، Shuo-Yiin Chang et al. [PDF]
شبكات Maxout للتجميع العشوائي للتعرف على الكلام منخفضة الموارد (2014) ، Meng Cai et al. [PDF]
نحو التعرف على الكلام الشامل مع الشبكات العصبية المتكررة (2014) ، Alex Graves et al. [PDF]
محول الطاقة العصبية (2015) ، N Jaitly et al. [PDF]
نماذج قائمة على الاهتمام للتعرف على الكلام (2015) ، جان تشوروفسكي وآخرون. [PDF]
تحليل نظام التعرف على الكلام المستند إلى CNN باستخدام الكلام الخام كمدخلات (2015) ، Dimitri Palaz et al. [PDF]
الذاكرة التلافيفية ، على المدى الطويل على المدى الطويل ، شبكات عصبية عميقة متصلة بالكامل (2015) ، تارا ن. سايناث وآخرون. [PDF]
الشبكات العصبية التلافيفية العميقة للنمذجة الصوتية بلغات الموارد المنخفضة (2015) ، وليام تشان وآخرون. [PDF]
الشبكات العصبية العميقة للتعرف على الكلام متعدد القنوات (2015) ، Chao Weng et al. [PDF]
EESEN: التعرف على الكلام من شوط إلى النهاية باستخدام نماذج RNN العميقة وفك تشفير WFST (2015) ، Y Miao et al. [PDF]
نماذج صوتية سريعة ودقيقة للشبكة العصبية المتكررة للتعرف على الكلام (2015) ، Hasim Sak et al. [PDF]
التعرف على خطاب المحادثة الخالي من المعجم مع الشبكات العصبية (2015) ، أندرو ل. ماس وآخرون. [PDF]
تدريب التسلسل عبر الإنترنت للشبكات العصبية المتكررة مع التصنيف الزمني للاتصال (2015) ، Kyuyeon Hwang et al. [PDF]
التقدم في التعرف على الكلام الشديد (2016) ، Geoffrey Zweig et al. [PDF]
التقدم في الشبكات العصبية التلافيفية العميقة للغاية لـ LVCSR (2016) ، توم سيركو وآخرون. [PDF]
التعرف على خطاب المفردات الكبيرة القائمة على الاهتمام (2016) ، Dzmitry Bahdanau et al. [PDF]
الشبكات العصبية العميقة التلافيفية مع توسع واهتمام السياق بالطبقة (2016) ، Dong Yu et al. [PDF]
الكلام العميق 2: التعرف على الكلام الشامل باللغة الإنجليزية والماندرين (2016) ، Dario Amodei et al. [PDF]
التعرف على الكلام البعيد القائم على الاهتمام مع الطريق السريع LSTM (2016) ، حسن طاهريان. [PDF]
التعرف على الكلام المشترك القائم على CTC-ANDENTENT باستخدام التعلم متعدد المهام (2016) ، Suyoun Kim et al. [PDF]
استمع وحضور وتهجئة: شبكة عصبية من أجل التعرف على خطاب المحادثة المفردات الكبيرة (2016) ، وليام تشان وآخرون. [PDF]
تحلل التسلسل الكامن (2016) ، وليام تشان وآخرون. [PDF]
نمذجة أنماط التردد الزمني مع LSTM مقابل البنية التلافيفية لمهام LVCSR (2016) ، Tara N. Sainath et al. [PDF]
نماذج متكررة للاهتمام السمعي في التعرف على خطاب المسافة متعددة الميكروفون (2016) ، Suyoun Kim et al. [PDF]
شبكات عصبية متكررة قطاعية للتعرف على الكلام الشامل (2016) ، ليانغ لو وآخرون. [PDF]
نحو تفكك أفضل وتكامل نموذج اللغة بالتسلسل إلى نماذج التسلسل (2016) ، Jan Chorowski et al. [PDF]
الشبكات العصبية العميقة للغاية للضوضاء القوية التعرف على الكلام (2016) ، يانمين تشيان وآخرون. [PDF]
شبكات تلافيفية عميقة للغاية للتعرف على الكلام من شوط إلى النهاية (2016) ، يو تشانغ وآخرون. [PDF]
الشبكات العصبية التلافيفية متعددة اللغات العميقة لـ LVCSR (2016) ، توم سيركو وآخرون. [PDF]
Wav2letter: نظام التعرف على الكلام القائم على القائمة من الطرف إلى النهاية (2016) ، رونان كولوبرت وآخرون. [PDF]
التعرف على العاطفة على الشبكة العصبية القائمة على الشبكة العصبية: دراسة حول تأثير ميزات الإدخال وطول الإشارة والكلام المفعول (2017) ، Michael Neumann et al. [PDF]
نظام التعرف على الكلام التلقائي المعزز للعربية (2017) ، محمد أمين ميناكر وآخرون. [PDF]
التقدم في التعرف على الكلام الشامل المقرز بنهاية CTC مع تشفير CNN العميق و RNN-LM (2017) ، Takaaki Hori et al. [PDF]
شبكة من الشبكات العصبية العميقة للتعرف على الكلام البعيدة (2017) ، Mirco Ravanelli et al. [PDF]
نموذج تسلسل عبر الإنترنت من أجل التعرف على الكلام الصاخبة (2017) ، Chung-Cheng Chiu et al. [PDF]
تقنية تجميع المتحدثين غير الخاضعة للرقابة القائمة على SOM و I-Joursials لأنظمة التعرف على الكلام (2017) ، Hany Ahmed et al. [PDF]
التعرف على الكلام من طرف إلى طرف في الماندرين (2017) ، سي شان وآخرون. [PDF]
بناء نماذج DNN الصوتية للتعرف على خطاب المفردات الكبيرة (2017) ، أندرو ل. ماس وآخرون. [PDF]
النماذج الصوتية المباشرة إلى كلمة التعرف على خطاب المحادثة (2017) ، Kartik Audhkhasi et al. [PDF]
التعلم العميق للتعرف على الكلام القوي من الناحية البيئية: نظرة عامة على التطورات الحديثة (2017) ، Zixing Zhang et al. [PDF]
التعرف على خطاب الهاتف المحادثة باللغة الإنجليزية من قبل البشر والآلات (2017) ، جورج سون وآخرون. [PDF]
ESE: محرك التعرف على الكلام الفعال مع LSTM متناثر على FPGA (2017) ، Song Han et al. [PDF]
استكشاف تعزيز الكلام مع شبكات الخصومة التوليدية للتعرف على الكلام القوية (2017) ، كريس دوناهو وآخرون. [PDF]
LSTM العميق للمفردات الكبيرة التعرف على الكلام (2017) ، Xu Tian et al. [PDF]
تطبيع الطبقة الديناميكية للنمذجة الصوتية العصبية التكيفية في التعرف على الكلام (2017) ، Taesup Kim et al. [PDF]
GRAM-CTC: اختيار الوحدة التلقائية والتحلل الهدف لوضع العلامات التسلسل (2017) ، Hairong Liu et al. [PDF]
تحسين أداء نماذج المحولات العصبية عبر الإنترنت (2017) ، Tara N. Sainath et al. [PDF]
التعلم مرشحات من الكلام الخام للتعرف على الهاتف (2017) ، نيل زيغور وآخرون. [PDF]
التعرف على الكلام متعدد القنوات (2017) ، Tsubasa Ochiai et al. [PDF]
التعلم متعدد المهام مع CTC و CRF القطاع للتعرف على الكلام (2017) ، ليانغ لو وآخرون. [PDF]
معالجة الإشارات متعددة القنوات مع الشبكات العصبية العميقة للتعرف على الكلام التلقائي (2017) ، Tara N. Sainath et al. [PDF]
التعرف على الكلام متعدد اللغات مع نموذج واحد إلى النهاية (2017) ، Shubham Toshniwal et al. [PDF]
تحسين معدل خطأ الكلمات المتوقع من خلال أخذ العينات للتعرف على الكلام (2017) ، مات شانون. [PDF]
شبكات CTC CTC المتبقية للتعرف على الكلام التلقائي (2017) ، Yisen Wang et al. [PDF]
LSTM المتبقية: تصميم بنية متكررة عميقة للتعرف على الكلام البعيدة (2017) ، Jaeyoung Kim et al. [PDF]
نماذج متكررة للاهتمام السمعي في التعرف على خطاب المسافة متعددة الميكروفون (2017) ، Suyoun Kim et al. [PDF]
تقليل التحيز في نماذج الكلام الإنتاج (2017) ، إريك باتنبرغ وآخرون. [PDF]
التعرف القوي على الكلام باستخدام شبكات الخصومة التوليدية (2017) ، Anuroop Sriram et al. [PDF]
أحدث التعرف على الكلام مع نماذج التسلسل إلى التسلسل (2017) ، Chung-Cheng Chiu et al. [PDF]
نحو التعرف على الكلام من طرف إلى نهاية اللغة (2017) ، Suyoun Kim et al. [PDF]
تسريع نموذج التعرف على الكلام عبر الإنترنت على الإنترنت المتكرر على الإنترنت (2018) ، K Lee et al. [PDF]
نموذج محسن لـ CTC-ANTENTIONTION من أجل التعرف على الكلام (2018) ، Zhe Yuan et al. [PDF]
Hybrid CTC-ANTENTENT-ANDENTENT التعرف على الكلام باستخدام وحدات الكلمات الفرعية (2018) ، Zhangyu Xiao et al. [PDF]
Specaugment: طريقة بسيطة لزيادة البيانات للتعرف على الكلام التلقائي (2019) ، دانييل س. بارك وآخرون. [PDF]
VQ-WAV2VEC: التعلم الخاضع للإشراف على تمثيلات الكلام المنفصلة (2019) ، Alexei Baevski et al. [PDF]
فعالية التدريب قبل التدريب على التعرف على الكلام (2020) ، Alexei Baevski et al. [PDF]
تحسين تدريب الطلاب الصاخبين للتعرف على الكلام التلقائي (2020) ، دانييل س. بارك ، وآخرون. [PDF]
ContextNet: تحسين الشبكات العصبية التلافيفية للتعرف على الكلام التلقائي مع السياق العالمي (2020) ، Wei Han ، وآخرون. [PDF]
المطابقة: محول مقرّب للالتفاف للتعرف على الكلام (2020) ، Anmol Gulati ، وآخرون. [PDF]
حول مقارنة النماذج الشهيرة الشهيرة للتعرف على الكلام على نطاق واسع (2020) ، Jinyu Li et al. [PDF]
التعلم المتناقض ذاتيا المعزز لتمثيلات الصوت الثابتة (2021) ، ميليكاسادات Emami et al. [PDF]
تدريب فعال لمحولات الصوت مع التصحيح (2021) ، Khaled Koutini et al. [PDF]
Mixspeech: زيادة البيانات للتعرف على الكلام التلقائي منخفض الموارد (2021) ، Linghui Meng et al. [PDF]
التعلم متعدد الأوضاع وتدفق الاندماج من أجل التعرف على الكلام التلقائي من طرف إلى النهاية (2021) ، Timo Lohrenz et al. [PDF]
Specaugment ++: طريقة لزيادة بيانات الفضاء المخفية لتصنيف المشهد الصوتي (2021) ، Helin Wang et al. [PDF]
Specmix: طريقة تعزيز بيانات عينة مختلطة للتدريب مع ميزات مجال التردد الزمني (2021) ، Gwantae Kim et al. [PDF]
تاريخ التعرف على الكلام لعام 2030 (2021) ، وني هانون وآخرون. [PDF]
يمكن أن يحسن تحويل الصوت ASR في إعدادات الموارد المنخفضة جدًا (2021) ، ماثيو باس وآخرون. [PDF]
لماذا تؤدي CTC إلى السلوك الذروة؟ (2021) ، ألبرت زيير وآخرون. [PDF]
E2E Segmenter: تجزئة المفصل وفك تشفير ASR الطويل (2022) ، W. Ronny Huang et al. [PDF]
فصل مصدر الموسيقى مع التدفق التوليدي (2022) ، Ge Zhu et al. [PDF]
تحسين تمثيلات الكلام التي تم إشرافها ذاتيا من قبل المتحدثين Disentangling (2022) ، Kaizhi Qian et al. [PDF]
التعرف القوي على الكلام عن طريق إشراف ضعيف على نطاق واسع (2022) ، أليك رادفورد وآخرون. [PDF]
على الهندسة المعمارية فقط لانتشار الكلام إلى النص وتكامل نموذج اللغة الكبير (2023) ، جيان وو وآخرون. [PDF]

التحقق من المتحدث

التحقق من مكبر الصوت باستخدام نماذج خليط غوسية المكيفة (2000) ، Douglas A.Reynolds et al. [PDF]
برنامج تعليمي حول التحقق من مكبر الصوت المستقل عن النص (2004) ، Frédéric Bimbot et al. [PDF]
الشبكات العصبية العميقة للتحقق من مكبر الصوت المعتمد على نص البصمة الصغيرة (2014) ، E Variani et al. [PDF]
ناقلات مكبر الصوت العميقة للتحقق من مكبر الصوت شبه المستقلة عن النص (2015) ، Lantian Li et al. [PDF]
المتحدث العميق: نظام تضمين مكبر صوت عصبي من طرف إلى طرف (2017) ، Chao Li et al. [PDF]
ميزة المتحدث العميقة تعلم التحقق من السماعات المستقلة عن النص (2017) ، Lantian Li et al. [PDF]
التحقق من المتحدث العميق: هل نحتاج إلى نهاية إلى النهاية؟ (2017) ، دونغ وانغ وآخرون. [PDF]
المتحدث مع LSTM (2017) ، Quan Wang et al. [PDF]
التحقق من مكبر الصوت المستقل عن النص باستخدام الشبكات العصبية التلافيفية ثلاثية الأبعاد (2017) ، Amirsina Torfi et al. [PDF]
التحقق من مكبر الصوت المستقل عن النصوص من طرف إلى طرف مع خسارة ثلاثية على الكلمات القصيرة (2017) ، Chunlei Zhang et al. [PDF]
تضمينات الشبكة العصبية العميقة للتحقق من السماعات المستقلة عن النص (2017) ، David Snyder et al. [PDF]
التضمينات التمييزية العميقة للمدة التحقق القوية من المتحدثين (2018) ، Na Li et al. [PDF]
تعلم السمات التمييزية لتحديد والتحقق من المتحدثين (2018) ، Sarthak Yadav et al. [PDF]
فقدان الهامش الكبير Softmax للتحقق من السماعات (2019) ، Yi Liu et al. [PDF]
تعزيز الميزة غير الخاضعة للإشراف للتحقق من السماعات (2019) ، Phani Sankar Nidadavolu et al. [PDF]
تعزيز الميزات مع خسائر ميزة عميقة للتحقق من السماعات (2019) ، سوراب كاتاريا وآخرون. [PDF]
خسارة End2end المعممة للتحقق من السماعات (2019) ، Li Wan et al. [PDF]
ترميز الهرم المكاني مع تطبيع طول محدب للتحقق من السماعات المستقلة عن النص (2019) ، Youngmoon Jung et al. [PDF]
VoxSRC 2019: أول تحدي التعرف على مكبر الصوت Voxceleb (2019) ، Son Chung et al. [PDF]
لكن وصف النظام لتحدي VoxceCeleb Speaker Condition 2019 (2019) ، Hossein Zeinali et al. [PDF]
وصف نظام المعرف R&D لتحدي التحقق من مكبر الصوت قصير المدة 2021 (2021) ، Alenin et al. [PDF]

تحويل الصوت

التحويل الصوتي باستخدام شبكات عصبية متكررة على المدى الطويل القائم على المدى الطويل (2015) ، Lifa Sun et al. [PDF]
propealgrams الصوتية لتحويل الصوت العديد إلى واحد دون التدريب على البيانات الموازية (2016) ، Lifa Sun et al. [PDF]
Stargan-VC: التحويل الصوتي غير المتوازي إلى العديد من العدد مع شبكات العددية النجمية (2018) ، Hirokazu Kameoka et al. [PDF]
AutoVC: نقل نمط الصوت صفري مع خسارة تلقائية فقط (2019) ، Kaizhi Qian et al. [PDF]
Stargan-VC2: إعادة التفكير في الأساليب المشروطة لتحويل الصوت في ستارغان (2019) ، Takuhiro Kaneko et al. [PDF]
التعلم غير الخاضع للرقابة من شامل إلى طرف للوحدات اللغوية المنفصلة لتحويل الصوت (2019) ، Andy T. Liu et al. [PDF]
تضمينات مكبر الصوت القائمة على الانتباه لتحويل صوت واحد (2020) ، Tatsuma Ishihara et al. [PDF]
F0 المتسق العديد من التحويل الصوتي غير المتوازي عبر Autoencoder الشرطي (2020) ، Kaizhi Qian et al. [PDF]
التحويل الصوتي غير الموازي القائم على التزامن مع التعلم العدائي (2020) ، Jing-Xuan Zhang et al. [PDF]
Stargan المحسّن لتحويل الصوت العاطفي: تعزيز جودة الصوت وزيادة البيانات (2021) ، Xiangheng He et al. [PDF]
Crank: برنامج مفتوح المصدر لتحويل الصوت غير المتوازي على أساس Autoencoder المتغير المتجه (2021) ، Kazuhiro Kobayashi et al. [PDF]
CVC: التعلم التباين لتحويل الصوت غير المتوازي (2021) ، Tingle Li et al. [PDF]
NoiseVC: نحو تحويل صوت عالي الجودة صفرية (2021) ، Shijun Wang et al. [PDF]
على نمذجة Prosody لتحويل الصوت القائم على ASR+TTS (2021) ، Wen-Chin Huang et al. [PDF]
Starganv2-VC: إطار متنوع وغير خاضع للإشراف وغير موازٍ لتحويل الصوت الطبيعي (2021) ، Yinghao Aaron Li et al. [PDF]
التحويل الصوتي صفر طلقة من خلال التعلم التمثيل الإشاري الخاضع للرقابة ذاتيا (2021) ، شيجون وانغ وآخرون. [PDF]

تخليق الكلام

تقدير الإشارة من Fourier Transform القصيرة الأوقات المعدلة (1993) ، دانييل دبليو غريفين وآخرون. [PDF]
تخليق النص إلى الكلام (2009) ، بول تايلور وآخرون. [PDF]
خوارزمية سريعة غريفين (2013) ، ناثانيل بيرودين وآخرون. [PDF]
TTS Synthesis مع شبكات عصبية متكررة قائمة على LSTM ثنائية الاتجاه (2014) ، Yuchen Fan et al. [PDF]
الخطوة الأولى نحو توليف TTS المعدوار من طرف إلى طرف: توليد معلمات طيفية مع الاهتمام العصبي (2016) ، Wenfu Wang et al. [PDF]
التطورات الحديثة في جوجل في الوقت الفعلي في الوقت الفعلي لملاكن الوحدة التي يحركها HMM (2016) ، Xavi Gonzalvo et al. [PDF]
Samplernn: نموذج توليد الصوت العصبي غير المشروط (2016) ، Soroush Mehri et al. [PDF]
Wavenet: نموذج توليدي لـ Raw Audio (2016) ، Aäron Van Den Oord et al. [PDF]
char2wav: Synthesis Counter Synthesis (2017) ، J Sotelo et al. [PDF]
صوت عميق: النص العصبي في الوقت الحقيقي (2017) ، Sercan O. Arik et al. [PDF]
Deep Voice 2: Multi-Speaker Neural Text-to-Speed (2017) ، Sercan Arik et al. [PDF]
الصوت العميق 3: 2000 مكبرات الصوت العصبية إلى الكلام (2017) ، Wei Ping et al. [PDF]
تخليق TTS الطبيعي عن طريق تكييف Wavenet على تنبؤات MEL الطيفية (2017) ، جوناثان شين وآخرون. [PDF]
Wavenet الموازي: توليف الكلام السريع عالي الدقة (2017) ، آرون فان دن أوورد وآخرون. [PDF]
تخليق الكلام الحدودي الإحصائي باستخدام شبكات الخصومة التوليدية تحت إطار تعليمي متعدد المهام (2017) ، S Yang et al. [PDF]
Tacotron: نحو تخليق الكلام من طرف إلى طرف (2017) ، Yuxuan Wang et al. [PDF]
الكشف عن عوامل النمط الكامن لتوليف الكلام التعبيري (2017) ، Yuxuan Wang et al. [PDF]
Voiceloop: تركيب الصوت والتوليف عبر حلقة صوتية (2017) ، Yaniv Taigman et al. [PDF]
الكلارينيت: توليد الموجة الموازية في النص إلى الخط إلى الكلام (2018) ، Wei Ping et al. [PDF]
شبكات الذاكرة المتسلسلة في التغذية العميقة لتوليف الكلام (2018) ، Mengxiao Bi et al. [PDF]
LPCNET: تحسين تخليق الكلام العصبي من خلال التنبؤ الخطي (2018) ، Jean-Marc Valin et al. [PDF]
تعلم تمثيلات كامنة للتحكم في الأسلوب ونقلها في تخليق الكلام الشامل (2018) ، YA-Jie Zhang et al. [PDF]
استنساخ الصوت العصبي مع بعض العينات (2018) ، Sercan O. Arık et al. [PDF]
التنبؤ بأسلوب التحدث التعبيري من النص في تخليق الكلام الشامل (2018) ، ديزي ستانتون وآخرون. [PDF]
الرموز النمطية: نمذجة النمذجة غير الخاضعة للرقابة والتحكم والنقل في تخليق الكلام من طرف إلى طرف (2018) ، Y Wang et al. [PDF]
نحو النقل الشامل للضغط على توليف الكلام التعبيري مع Tacotron (2018) ، RJ Skerry-Ryan et al. [PDF]
دوريان: شبكة الانتباه المستنيرة لتوليف متعدد الوسائط (2019) ، Chengzhu Yu et al. [PDF]
انعكاس Spectrogram السريع باستخدام الشبكات العصبية التلافيفية متعددة الرأس (2019) ، Sö Arık et al. [PDF]
Fastspeech: نص سريع وقوي ويمكن التحكم فيه إلى الكلام (2019) ، يي رين وآخرون. [PDF]
تعلم التحدث بطلاقة بلغة أجنبية: تخليق الكلام متعدد اللغات والاستنساخ الصوتي عبر اللغة (2019) ، Yu Zhang et al. [PDF]
Melnet: نموذج توليدي للصوت في مجال التردد (2019) ، Sean Vasquez et al. [PDF]
توليف الكلام متعدد الكلام متعدد الكلام (2019) ، Jihyun Park et al. [PDF]
ميليغان: شبكات الخصومة التوليدية لتوليف الموجة الشرطية (2019) ، كوندان كومار وآخرون. [PDF]
تخليق الكلام العصبي مع شبكة Transformer (2019) ، Naihan Li et al. [PDF]
الموازي العصبية النص إلى الكلام (2019) ، كينان بينغ وآخرون. [PDF]
تمثيلات نصية مدربة مسبقًا لتحسين معالجة النصوص الأمامية في تخليق النص إلى الكلام الماندرين (2019) ، Bing Yang et al. [PDF]
موازي Wavegan: نموذج توليد الموجة السريعة على أساس شبكات الخصومة التوليدية مع طيف متعدد الدقة (2019) ، Ryuichi Yamamoto et al. [PDF] _{^{يخرج في نفس الوقت مثل ميليغان ، بينما لا أحد يشير إلى بعضها البعض ... إلى جانب ذلك ، أعتقد أن الضوضاء الغوسية غير ضرورية ، لأن Melspec لديه معلومات قوية للغاية.}}
تضمينات خطاب المشكلات غير الملحومة للرسائل النصية متعددة الكلام مع Samplernn (2019) ، David Alvarez et al. [PDF]
النمذجة الصوتية التسلسل القوي للتسلسل مع الاهتمام الرتابة التدريجي لـ Neural TTS (2019) ، Mutian He et al. [PDF]
نحو النقل التعلم لتوليف الكلام من شوط إلى النهاية من نماذج اللغة العميقة التي تم تدريبها (2019) ، Wei Fang et al. [PDF]
نقل التعلم من التحقق من مكبر الصوت إلى تخليق النص إلى الكلام متعدد النطق (2019) ، يي جيا وآخرون. [PDF]
Waveflow: نموذج قائم على التدفق المدمج لـ Raw Audio (2019) ، Wei Ping et al. [PDF]
WaveGlow: شبكة توليد قائمة على التدفق لتوليف الكلام (2019) ، R Prenger et al. [PDF]
aligntts: نظام نصي إلى خط الكلام فعال للتغذية دون حدوث خلاصة دون alignmen الصريحة (2020) ، Zhen Zeng et al. [PDF]
Boffin TTS: تكييف مكبر صوت قليلة من قبل Bayesian Optimization (2020) ، Henry B.Moss et al. [PDF]
Bunched LPCNET: Vocoder لأنظمة النصوص العصبية منخفضة التكلفة (2020) ، Ravichander Vipperla et al. [PDF]
Copycat: نقل العديد من العوامل الناتجة عن الحبيبات الناتجة عن النص العصبي (2020) ، سري كارلاباتي وآخرون. [PDF]
فعالة: بنية نصي إلى كلام فعالة وعالية الجودة (2020) ، Chenfeng Miao et al. [PDF]
نص إلى خط إلى خط الهجوم (2020) ، Jeff Donahue et al. [PDF]
Fastspeech 2: النص السريع والعالي الجودة إلى الكلام (2020) ، Yi Ren et al. [PDF]
Flowtron: شبكة توليد قائم على التدفق التلقائي لتوليف النص إلى الكلام (2020) ، Rafael Valle et al. [PDF]
Flow-TTS: شبكة غير متكافئة للنص على الكلام بناءً على Flow (2020) ، Chenfeng Miao et al. [PDF]
نمذجة إيجابيات ذات حبيبات عالية التسلسل الهرمي لتوليف الكلام القابل للتفسير (2020) ، Guangzhi Sun et al. [PDF]
توليد عينات من النص إلى الكلام المتنوع والطبيعي باستخدام VAE الحبيبات الدقيقة و prosody التلقائي الأوتوماتيكي قبل (2020) ، Guangzhi Sun et al. [PDF]
Glow-TTS: تدفق توليدي للنص إلى الكلام عن طريق البحث المحاذاة الرتابة (2020) ، Jaehyeon Kim et al. [PDF]
HIFI-GAN: شبكات الخصومة التوليدية لتوليف خطاب الكفاءة والعالي الإخلاص (2020) ، Jungil Kong et al. [PDF]
آليات الانتباه في الموقع لتوليفات الكلام الطويلة القوية (2020) ، إريك باتنبرغ وآخرون. [PDF]
Multispeech: نص متعدد الكلام إلى الكلام مع Transformer (2020) ، Mingjian Chen et al. [PDF]
التاكوترون الموازي: TTS غير التوت والتحكم (2020) ، إسحاق إلياس وآخرون. [PDF]
Robutrans: نموذج نص إلى المحول القوي المستند إلى المحول (2020) ، Naihan Li et al. [PDF]
التحقق من مكبر الصوت المستقل عن النص مع شبكة الانتباه المزدوجة (2020) ، Jingyu Li et al. [PDF]
Wavegrad: تقدير التدرجات لتوليد الموجة (2020) ، Nanxin Chen et al. [PDF]
Adaspeech: النص التكيفي إلى الكلام من أجل الصوت المخصص (2021) ، Mingjian Chen et al. [PDF]
دراسة استقصائية حول تخليق الكلام العصبي (2021) ، Xu Tan et al. [PDF]
مركبة GAN Streamwise لترميز الكلام على نطاق واسع بمعدل بتات منخفضة للغاية (2021) ، أحمد مصطفى وآخرون. [PDF]
نقل المشاعر المتقاطعة التي يمكن السيطرة عليها لتوليف الكلام من طرف إلى طرف (2021) ، Tao Li et al. [PDF]
استنساخ صوت واحد باستخدام بيانات محدودة للغاية في البرية (2021) ، Dongyang Dai et al. [PDF]
Autoencoder التباين الشرطي مع التعلم العدواني للرسائل النصية من طرف إلى طرف (2021) ، Jaehyeon Kim et al. [PDF]
Diffwave: نموذج نشر متعدد الاستخدامات لتوليف الصوت (2021) ، Zhifeng Kong et al. [PDF]
DIFF-TTS: نموذج انتشار تقليص للنص إلى الكلام (2021) ، Myeonghun Jeong et al. [PDF]
مبهجة: نظام تخليق الكلام Microsoft لـ Blizzard Challenge 2021 (2021) ، Yanqing Liu et al. [PDF]
FRE-VAN: تخليق الصوت المتناسق للترددات (2021) ، Ji-Hoon Kim et al. [PDF]
LPCNET كامل النطاق: صوت عصبي في الوقت الفعلي لـ 48 كيلو هرتز مع وحدة المعالجة المركزية (2021) ، Keisuke Matsubara et al. [PDF]
Grad-TTS: نموذج احتمالي للانتشار للنص إلى الكلام (2021) ، Vadim Popov et al. [PDF]
Glow-Wavegan: تمثيلات تعليمية الكلام من ANTODERALEAL VALINGEAL TUMERENT GAN لتوليف الكلام القائم على تدفق الإخلاص العالي (2021) ، Jian Cong et al. [PDF]
VOCODER عالية الدقة والكفاهية الشهية المفرطة العصبية القائمة على Wavernn متعددة الأطوار مع التنبؤ الخطي القائم على البيانات لنمذجة الطول الموجي المنفصل (2021) ، باتريك Lumban ToBing et al. [PDF]
النمذجة الهادئة الهرمية لتوليف الكلام غير التوت (2021) ، Chung-Ming Chien et al. [PDF]
itoˆtts و itoˆwave: المعادلة التفاضلية العشوائية الخطية هي كل ما تحتاجه لتوليد الصوت (2021) ، Shoule Wu et al. [PDF]
الطائرات: تدريب مشترك Fastspeech2 و HIFI من أجل نهاية النص على الكلام (2021) ، Dan Lim et al. [PDF]
Meta-Voice: نقل نمط سريع قليل للاستنساخ الصوتي التعبيري باستخدام Meta Learning (2021) ، Songxiang Liu et al. [PDF]
HMMs العصبية هي كل ما تحتاجه (ل TTS عالية الجودة خالية من الاهتمام) (2021) ، شيفام ميهتا وآخرون. [PDF]
تحول الملعب العصبي وتوصل الوقت مع LPCNET يمكن السيطرة عليه (2021) ، ماكس موريسون وآخرون. [PDF]
محاذاة TTS واحدة لحكمهم جميعًا (2021) ، روهان بادلاني وآخرون. [PDF]
Karatuner: نحو من النهاية إلى النهاية تصحيح الملعب الطبيعي للغناء صوت في الكاريوكي (2021) ، شياوبين تشوانغ وآخرون. [PDF]
PNG BERT: BERT المعزز على الصوتيات والرسوم البيانية لـ TTS العصبية (2021) ، يي جيا وآخرون. [PDF]
موازي Tacotron 2: نموذج TTS العصبي غير التابع للانحدار مع نمذجة مدة قابلة للتمييز (2021) ، Isaac Elias et al. [PDF]
Portaspeech: محمول وعالي الجودة من النص إلى الكلام (2021) ، يي رن وآخرون. [PDF]
النمذجة الصوتية القائمة على المحولات لتوليف الكلام البث (2021) ، Chunyang Wu et al. [PDF]
Triple M: نظام عملي عصبي إلى كلام مع اهتمام متعدد الأجزاء و LPCNET متعدد المرات (2021) ، Shilun Lin et al. [PDF]
Talknet 2: النموذج الذنيق غير القابل للعمق غير الذاتي لتوليف الكلام مع التنبؤ الصريح والمدة (2021) ، Stanislav Beliaev et al. [PDF] _{^{TalkNet2 له فرق بسيط من TalkNet ، لذلك لا أدرج TalkNet هنا.}}
نحو التحكم في النمط متعدد النطاق لتوليف الكلام التعبيري (2021) ، Xiang Li et al. [PDF]
GAN المصدر الموحد: شبكة مرشح المصدر الموحدة تعتمد على عوامل الموجة الموازية شبه الفسيوية (2021) ، Reo Yoneyama et al. [PDF]
Yourtts: نحو تحويل صوتي متعدد الحواس و TTS و Zero-Shot للجميع (2021) ، Edresson Casanova et al. [PDF]
Avocodo: شبكة الخصومة التوليدية لـ Vocoder الخالية من القطع الأثرية (2022) ، Taejun Bak et al. [PDF]
التعلم الخلفي للسماعات التي تتوافق باستخدام بيانات الكلام غير المنقولة عن نص إلى نصوص متعددة الناطقين (2022) ، Byoung Jin Choi et al. [PDF]
Bunched LPCNET2: صوتات عصبية فعالة تغطي الأجهزة من السحابة إلى الحافة (2022) ، Sangjun Park et al. [PDF]
نقل العاطفة المتقاطع من أجل النص إلى المحطات منخفضة الموارد باستخدام تحويل صوت غير موازٍ مع زيادة بيانات التحول في الملعب (2022) ، Ryo Terashima et al. [PDF]
Fastdiff: نموذج نشر مشروط سريع لتوليف الكلام عالي الجودة (2022) ، Rongjie Huang et al. [PDF]
Fast Grad-TTS: نحو توليد الكلام القائم على الانتشار على وحدة المعالجة المركزية (2022) ، إيفان فوفك وآخرون. [[PDF]
Glow-Wavegan 2: تخليق نص إلى خطوة عالية الجودة صفرًا وتحويلًا صوتيًا (2022) ، Yi Lei et al. [PDF]
HIFI ++: إطار موحد للمفردات العصبية ، تمديد النطاق الترددي وتعزيز الكلام (2022) ، بافيل أندريف وآخرون. [PDF]
IQDubbing: نمذجة Prosody تعتمد على تمثيل الكلام الخاضع للإشراف ذاتيا المنفصل لتحويل الصوت التعبيري (2022) ، Wendong Gan et al. [PDF]
Istftnet: Vocoder السريع وخفيف الوزن الطيف يتضمن تحويل Fourier العكسي (2022) ، Takuhiro Kaneko et al. [PDF]
خفيفة الوزن وذات خط إلى طرف من طرف إلى طرف مع جيل متعدد النطاقات وتحويل فورييه القصيرة لفترة قصيرة (2022) ، ماسايا كاوامورا وآخرون. [PDF]
تخليق الكلام العصبي على حشوة: تحسين كفاءة LPCNET (2022) ، جان مارك فالين وآخرون. [PDF]
Nansy ++: تخليق صوتي موحد مع التحليل العصبي والتوليف (2022) ، Hyeong-Seok Choi et al. [PDF]
PRIERGRAD: تحسين نماذج انتشار تقلل المشروطة مع تعتمد على البيانات قبل (2022) ، Sang-Gil Lee et al. [PDF]
requertts: يمكن التحكم في نص إلى كلام مع أوصاف نصية (2022) ، Zhifang Guo et al. [PDF]
Sane-TTS: مستقر وطبيعي من النص إلى خط الكبير (2022) ، Hyunjae Cho et al. [PDF]
تعزيز الكلام العصبي في مجال STFT مع زمن انتقال خوارزمي منخفض للغاية (2022) ، Zhong-QIU Wang et al. [PDF]
تخليق الكلام البسيط والفعال غير الخاضع للإشراف (2022) ، ألكساندر هـ. ليو وآخرون. [PDF]
SPECGRAR: VOCODER NEURALICAL النموذجية القائمة على النموذج مع تشكيل طيفي للضوضاء التكيفية (2022) ، Yuma Koizumi et al. [PDF]
مرشح المصدر HIFI-GAN: Fast and Pitch High-Fidelity Neural Vocoder (2022) ، Reo Yoneyama et al. [PDF]
Trinitts: TTS يمكن السيطرة عليها من طرف إلى طرف دون محاذاة خارجي (2022) ، يون تشيول جو وآخرون. [PDF]
نقل صفر لقطات العرضية باستخدام تشفير متعدد الطبقات وتمثيل مكبر الصوت الفعال (2022) ، Yibin Zheng et al. [PDF]
EndrectTts: نمذجة TTS التعبيرية في الفضاء الكامن المنفصل مع موجه نمط اللغة الطبيعية (2023) ، Dongchao Yang et al. [PDF]
Matcha-TTS: بنية TTS سريعة مع مطابقة التدفق الشرطي (2023) ، شيفام ميهتا وآخرون. [PDF]
Mega-TTS: نص إلى نص صفري على النطاق مع التحيز الاستقرائي الجوهري (2023) ، Ziyue Jiang et al. [PDF]
Mega-TTS 2: Text-Shot text-to-tpeech مع مطالبات الكلام الطول التعسفي (2023) ، Ziyue Jiang et al. [PDF]

نمذجة اللغة

نماذج N-Gram المستندة إلى الطبقة من اللغة الطبيعية (1992) ، بيتر ف. براون وآخرون. [PDF]
دراسة تجريبية لتقنيات التنعيم لنمذجة اللغة (1996) ، ستانلي ف. تشن وآخرون. [PDF]
نموذج لغة احتمالية عصبية (2000) ، Yoshua Bengio et al. [PDF]
نهج إحصائي جديد لمدخلات Pinyin الصينية (2000) ، Zheng Chen et al. [PDF]
نمذجة لغة N-Gram التمييزية (2007) ، براين روارك وآخرون. [PDF]
نموذج لغة الشبكة العصبية لمحرك طريقة إدخال Pinyin الصينية (2015) ، S Chen et al. [PDF]
التدريب الفعال وتقييم نماذج لغة الشبكة العصبية المتكررة للتعرف على الكلام التلقائي (2016) ، Xie Chen et al. [PDF]
استكشاف حدود نمذجة اللغة (2016) ، R Jozefowicz et al. [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]

Confidence Estimates

Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]

Music Modelling

Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]

Interesting papers

The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]