Audiolm: نهج نمذجة اللغة لتوليد الصوت (2022) ، Zalán Borsos et al. [PDF]
Audioldm: توليد نص إلى أذو مع نماذج الانتشار الكامن (2023) ، Haohe Liu et al. [PDF]
MusicLM: توليد الموسيقى من Text (2023) ، Andrea Agostinelli et al. [PDF]
Moûsai: توليد نص إلى Music مع نشر كامنسي طويل (2023) ، Flavio Schneider et al. [PDF]
Noise2Music: توليد الموسيقى المكيف مع نماذج الانتشار (2023) ، Qingqing Huang et al. [PDF]
مقدمة لتطبيق نظرية الوظائف الاحتمالية لعملية Markov للتعرف على الكلام التلقائي (1982) ، Se Levinson et al. [PDF]
نهج احتمال أقصى للتعرف المستمر على الكلام (1983) ، Lalit R. Bahl et al. [PDF]
قياسات صوتية غير متجانسة ومصنفات متعددة للتعرف على الكلام (1986) ، أندرو ك. هالبرستادت. [PDF]
أقصى تقدير للمعلومات المتبادلة لمعلمات نموذج Markov المخفية للتعرف على الكلام (1986) ، Lalit R. Bahi et al. [PDF]
برنامج تعليمي حول نماذج Markov المخفية والتطبيقات المختارة في التعرف على الكلام (1989) ، لورانس آر رابينر. [PDF]
التعرف على الصوتيات باستخدام الشبكات العصبية للوقت (1989) ، ألكساندر هـ. وايبل وآخرون. [PDF]
التعرف على الهاتف المستقل عن السماعات باستخدام نماذج Hidden Markov (1989) ، Kai-Fu Lee et al. [PDF]
نماذج ماركوف المخفية للتعرف على الكلام (1991) ، BH Juang et al. [PDF]
مراجعة TDNN (الشبكة العصبية للتأخير الزمني) للبنية للتعرف على الكلام (2014) ، Masahide Sugiyamat et al. [PDF]
التعرف على خطاب التوصيل: نهج هجين (1994) ، هيرف بورلارد وآخرون. [PDF]
نظام ما بعد المعالجة لإعطاء معدلات خطأ في الكلمات المخفضة: الحد من أخطاء تصويت الإخراج (Rover) (1997) ، JG FISCUS. [PDF]
التعرف على الكلام مع محولات الحالة المحدودة المرجحة (2001) ، M Mohri et al. [PDF]
تصنيف Framewise Phoneme مع LSTM ثنائية الاتجاه وغيرها من بنيات الشبكة العصبية (2005) ، Alex Graves et al. [PDF]
التصنيف الزمني للاتصال: وصف بيانات التسلسل غير المقطوعة مع الشبكات العصبية المتكررة (2006) ، Alex Graves et al. [PDF]
Kaldi Toolkit Toolkit (2011) ، دانييل بوفي وآخرون. [PDF]
تطبيق مفاهيم الشبكات العصبية التلافيفية على نموذج NN-HMM المختلط للتعرف على الكلام (2012) ، Ossama Abdel-Hamid et al. [PDF]
الشبكات العصبية العميقة المعتمدة على السياق قبل التعرف على الكلام الكبير (2012) ، جورج إ. دال وآخرون. [PDF]
الشبكات العصبية العميقة للنمذجة الصوتية في التعرف على الكلام (2012) ، جيفري هينتون وآخرون. [PDF]
نقل التسلسل مع الشبكات العصبية المتكررة (2012) ، Alex Graves et al. [PDF]
الشبكات العصبية التلافيفية العميقة لـ LVCSR (2013) ، Tara N. Sainath et al. [PDF]
تحسين الشبكات العصبية العميقة لـ LVCSR باستخدام الوحدات الخطية المصححة والمتسربة (2013) ، جورج إي دال وآخرون. [PDF]
تحسين CD-DNN-HMM منخفض الموارد باستخدام التدريب المتسرب والتدريب على DNN متعدد اللغات (2013) ، Yajie Miao et al. [PDF]
تحسينات على الشبكات العصبية التلافيفية العميقة لـ LVCSR (2013) ، Tara N. Sainath et al. [PDF]
نماذج التعلم الآلي للتعرف على الكلام: نظرة عامة (2013) ، Li Deng et al. [PDF]
التطورات الحديثة في التعلم العميق لأبحاث الكلام في Microsoft (2013) ، Li Deng et al. [PDF]
التعرف على الكلام مع الشبكات العصبية المتكررة العميقة (2013) ، أليكس جريفز وآخرون. [PDF]
شبكات Maxout العميقة التنازلية للتعرف على الهاتف (2014) ، László Tóth et al. [PDF]
الشبكات العصبية التلافيفية للتعرف على الكلام (2014) ، Ossama Abdel-Hamid et al. [PDF]
الجمع بين إيلاء المجال الزمني والتردد في التعرف على الهاتف القائم على الشبكة العصبية (2014) ، László Tóth. [PDF]
الكلام العميق: توسيع نطاق التعرف على الكلام من طرف إلى طرف (2014) ، Awni Y. Hannun et al. [PDF]
التعرف على الكلام المستمر من طرف إلى طرف باستخدام NN المتكرر القائم على الاهتمام: النتائج الأولى (2014) ، Jan Chorowski et al. [PDF]
أول تمرير كبير المفردات التعرف على الكلام المستمر باستخدام DNNS المتكررة ثنائية الاتجاه (2014) ، أندرو ل. ماس وآخرون. [PDF]
بنيات الشبكة العصبية المتكررة على المدى الطويل على المدى القصير للنمذجة الصوتية واسعة النطاق (2014) ، Hasim Sak et al. [PDF]
التعرف على الكلام القوي القائم على CNN مع Gabor Filter Kernels (2014) ، Shuo-Yiin Chang et al. [PDF]
شبكات Maxout للتجميع العشوائي للتعرف على الكلام منخفضة الموارد (2014) ، Meng Cai et al. [PDF]
نحو التعرف على الكلام الشامل مع الشبكات العصبية المتكررة (2014) ، Alex Graves et al. [PDF]
محول الطاقة العصبية (2015) ، N Jaitly et al. [PDF]
نماذج قائمة على الاهتمام للتعرف على الكلام (2015) ، جان تشوروفسكي وآخرون. [PDF]
تحليل نظام التعرف على الكلام المستند إلى CNN باستخدام الكلام الخام كمدخلات (2015) ، Dimitri Palaz et al. [PDF]
الذاكرة التلافيفية ، على المدى الطويل على المدى الطويل ، شبكات عصبية عميقة متصلة بالكامل (2015) ، تارا ن. سايناث وآخرون. [PDF]
الشبكات العصبية التلافيفية العميقة للنمذجة الصوتية بلغات الموارد المنخفضة (2015) ، وليام تشان وآخرون. [PDF]
الشبكات العصبية العميقة للتعرف على الكلام متعدد القنوات (2015) ، Chao Weng et al. [PDF]
EESEN: التعرف على الكلام من شوط إلى النهاية باستخدام نماذج RNN العميقة وفك تشفير WFST (2015) ، Y Miao et al. [PDF]
نماذج صوتية سريعة ودقيقة للشبكة العصبية المتكررة للتعرف على الكلام (2015) ، Hasim Sak et al. [PDF]
التعرف على خطاب المحادثة الخالي من المعجم مع الشبكات العصبية (2015) ، أندرو ل. ماس وآخرون. [PDF]
تدريب التسلسل عبر الإنترنت للشبكات العصبية المتكررة مع التصنيف الزمني للاتصال (2015) ، Kyuyeon Hwang et al. [PDF]
التقدم في التعرف على الكلام الشديد (2016) ، Geoffrey Zweig et al. [PDF]
التقدم في الشبكات العصبية التلافيفية العميقة للغاية لـ LVCSR (2016) ، توم سيركو وآخرون. [PDF]
التعرف على خطاب المفردات الكبيرة القائمة على الاهتمام (2016) ، Dzmitry Bahdanau et al. [PDF]
الشبكات العصبية العميقة التلافيفية مع توسع واهتمام السياق بالطبقة (2016) ، Dong Yu et al. [PDF]
الكلام العميق 2: التعرف على الكلام الشامل باللغة الإنجليزية والماندرين (2016) ، Dario Amodei et al. [PDF]
التعرف على الكلام البعيد القائم على الاهتمام مع الطريق السريع LSTM (2016) ، حسن طاهريان. [PDF]
التعرف على الكلام المشترك القائم على CTC-ANDENTENT باستخدام التعلم متعدد المهام (2016) ، Suyoun Kim et al. [PDF]
استمع وحضور وتهجئة: شبكة عصبية من أجل التعرف على خطاب المحادثة المفردات الكبيرة (2016) ، وليام تشان وآخرون. [PDF]
تحلل التسلسل الكامن (2016) ، وليام تشان وآخرون. [PDF]
نمذجة أنماط التردد الزمني مع LSTM مقابل البنية التلافيفية لمهام LVCSR (2016) ، Tara N. Sainath et al. [PDF]
نماذج متكررة للاهتمام السمعي في التعرف على خطاب المسافة متعددة الميكروفون (2016) ، Suyoun Kim et al. [PDF]
شبكات عصبية متكررة قطاعية للتعرف على الكلام الشامل (2016) ، ليانغ لو وآخرون. [PDF]
نحو تفكك أفضل وتكامل نموذج اللغة بالتسلسل إلى نماذج التسلسل (2016) ، Jan Chorowski et al. [PDF]
الشبكات العصبية العميقة للغاية للضوضاء القوية التعرف على الكلام (2016) ، يانمين تشيان وآخرون. [PDF]
شبكات تلافيفية عميقة للغاية للتعرف على الكلام من شوط إلى النهاية (2016) ، يو تشانغ وآخرون. [PDF]
الشبكات العصبية التلافيفية متعددة اللغات العميقة لـ LVCSR (2016) ، توم سيركو وآخرون. [PDF]
Wav2letter: نظام التعرف على الكلام القائم على القائمة من الطرف إلى النهاية (2016) ، رونان كولوبرت وآخرون. [PDF]
التعرف على العاطفة على الشبكة العصبية القائمة على الشبكة العصبية: دراسة حول تأثير ميزات الإدخال وطول الإشارة والكلام المفعول (2017) ، Michael Neumann et al. [PDF]
نظام التعرف على الكلام التلقائي المعزز للعربية (2017) ، محمد أمين ميناكر وآخرون. [PDF]
التقدم في التعرف على الكلام الشامل المقرز بنهاية CTC مع تشفير CNN العميق و RNN-LM (2017) ، Takaaki Hori et al. [PDF]
شبكة من الشبكات العصبية العميقة للتعرف على الكلام البعيدة (2017) ، Mirco Ravanelli et al. [PDF]
نموذج تسلسل عبر الإنترنت من أجل التعرف على الكلام الصاخبة (2017) ، Chung-Cheng Chiu et al. [PDF]
تقنية تجميع المتحدثين غير الخاضعة للرقابة القائمة على SOM و I-Joursials لأنظمة التعرف على الكلام (2017) ، Hany Ahmed et al. [PDF]
التعرف على الكلام من طرف إلى طرف في الماندرين (2017) ، سي شان وآخرون. [PDF]
بناء نماذج DNN الصوتية للتعرف على خطاب المفردات الكبيرة (2017) ، أندرو ل. ماس وآخرون. [PDF]
النماذج الصوتية المباشرة إلى كلمة التعرف على خطاب المحادثة (2017) ، Kartik Audhkhasi et al. [PDF]
التعلم العميق للتعرف على الكلام القوي من الناحية البيئية: نظرة عامة على التطورات الحديثة (2017) ، Zixing Zhang et al. [PDF]
التعرف على خطاب الهاتف المحادثة باللغة الإنجليزية من قبل البشر والآلات (2017) ، جورج سون وآخرون. [PDF]
ESE: محرك التعرف على الكلام الفعال مع LSTM متناثر على FPGA (2017) ، Song Han et al. [PDF]
استكشاف تعزيز الكلام مع شبكات الخصومة التوليدية للتعرف على الكلام القوية (2017) ، كريس دوناهو وآخرون. [PDF]
LSTM العميق للمفردات الكبيرة التعرف على الكلام (2017) ، Xu Tian et al. [PDF]
تطبيع الطبقة الديناميكية للنمذجة الصوتية العصبية التكيفية في التعرف على الكلام (2017) ، Taesup Kim et al. [PDF]
GRAM-CTC: اختيار الوحدة التلقائية والتحلل الهدف لوضع العلامات التسلسل (2017) ، Hairong Liu et al. [PDF]
تحسين أداء نماذج المحولات العصبية عبر الإنترنت (2017) ، Tara N. Sainath et al. [PDF]
التعلم مرشحات من الكلام الخام للتعرف على الهاتف (2017) ، نيل زيغور وآخرون. [PDF]
التعرف على الكلام متعدد القنوات (2017) ، Tsubasa Ochiai et al. [PDF]
التعلم متعدد المهام مع CTC و CRF القطاع للتعرف على الكلام (2017) ، ليانغ لو وآخرون. [PDF]
معالجة الإشارات متعددة القنوات مع الشبكات العصبية العميقة للتعرف على الكلام التلقائي (2017) ، Tara N. Sainath et al. [PDF]
التعرف على الكلام متعدد اللغات مع نموذج واحد إلى النهاية (2017) ، Shubham Toshniwal et al. [PDF]
تحسين معدل خطأ الكلمات المتوقع من خلال أخذ العينات للتعرف على الكلام (2017) ، مات شانون. [PDF]
شبكات CTC CTC المتبقية للتعرف على الكلام التلقائي (2017) ، Yisen Wang et al. [PDF]
LSTM المتبقية: تصميم بنية متكررة عميقة للتعرف على الكلام البعيدة (2017) ، Jaeyoung Kim et al. [PDF]
نماذج متكررة للاهتمام السمعي في التعرف على خطاب المسافة متعددة الميكروفون (2017) ، Suyoun Kim et al. [PDF]
تقليل التحيز في نماذج الكلام الإنتاج (2017) ، إريك باتنبرغ وآخرون. [PDF]
التعرف القوي على الكلام باستخدام شبكات الخصومة التوليدية (2017) ، Anuroop Sriram et al. [PDF]
أحدث التعرف على الكلام مع نماذج التسلسل إلى التسلسل (2017) ، Chung-Cheng Chiu et al. [PDF]
نحو التعرف على الكلام من طرف إلى نهاية اللغة (2017) ، Suyoun Kim et al. [PDF]
تسريع نموذج التعرف على الكلام عبر الإنترنت على الإنترنت المتكرر على الإنترنت (2018) ، K Lee et al. [PDF]
نموذج محسن لـ CTC-ANTENTIONTION من أجل التعرف على الكلام (2018) ، Zhe Yuan et al. [PDF]
Hybrid CTC-ANTENTENT-ANDENTENT التعرف على الكلام باستخدام وحدات الكلمات الفرعية (2018) ، Zhangyu Xiao et al. [PDF]
Specaugment: طريقة بسيطة لزيادة البيانات للتعرف على الكلام التلقائي (2019) ، دانييل س. بارك وآخرون. [PDF]
VQ-WAV2VEC: التعلم الخاضع للإشراف على تمثيلات الكلام المنفصلة (2019) ، Alexei Baevski et al. [PDF]
فعالية التدريب قبل التدريب على التعرف على الكلام (2020) ، Alexei Baevski et al. [PDF]
تحسين تدريب الطلاب الصاخبين للتعرف على الكلام التلقائي (2020) ، دانييل س. بارك ، وآخرون. [PDF]
ContextNet: تحسين الشبكات العصبية التلافيفية للتعرف على الكلام التلقائي مع السياق العالمي (2020) ، Wei Han ، وآخرون. [PDF]
المطابقة: محول مقرّب للالتفاف للتعرف على الكلام (2020) ، Anmol Gulati ، وآخرون. [PDF]
حول مقارنة النماذج الشهيرة الشهيرة للتعرف على الكلام على نطاق واسع (2020) ، Jinyu Li et al. [PDF]
التعلم المتناقض ذاتيا المعزز لتمثيلات الصوت الثابتة (2021) ، ميليكاسادات Emami et al. [PDF]
تدريب فعال لمحولات الصوت مع التصحيح (2021) ، Khaled Koutini et al. [PDF]
Mixspeech: زيادة البيانات للتعرف على الكلام التلقائي منخفض الموارد (2021) ، Linghui Meng et al. [PDF]
التعلم متعدد الأوضاع وتدفق الاندماج من أجل التعرف على الكلام التلقائي من طرف إلى النهاية (2021) ، Timo Lohrenz et al. [PDF]
Specaugment ++: طريقة لزيادة بيانات الفضاء المخفية لتصنيف المشهد الصوتي (2021) ، Helin Wang et al. [PDF]
Specmix: طريقة تعزيز بيانات عينة مختلطة للتدريب مع ميزات مجال التردد الزمني (2021) ، Gwantae Kim et al. [PDF]
تاريخ التعرف على الكلام لعام 2030 (2021) ، وني هانون وآخرون. [PDF]
يمكن أن يحسن تحويل الصوت ASR في إعدادات الموارد المنخفضة جدًا (2021) ، ماثيو باس وآخرون. [PDF]
لماذا تؤدي CTC إلى السلوك الذروة؟ (2021) ، ألبرت زيير وآخرون. [PDF]
E2E Segmenter: تجزئة المفصل وفك تشفير ASR الطويل (2022) ، W. Ronny Huang et al. [PDF]
فصل مصدر الموسيقى مع التدفق التوليدي (2022) ، Ge Zhu et al. [PDF]
تحسين تمثيلات الكلام التي تم إشرافها ذاتيا من قبل المتحدثين Disentangling (2022) ، Kaizhi Qian et al. [PDF]
التعرف القوي على الكلام عن طريق إشراف ضعيف على نطاق واسع (2022) ، أليك رادفورد وآخرون. [PDF]
على الهندسة المعمارية فقط لانتشار الكلام إلى النص وتكامل نموذج اللغة الكبير (2023) ، جيان وو وآخرون. [PDF]
التحقق من مكبر الصوت باستخدام نماذج خليط غوسية المكيفة (2000) ، Douglas A.Reynolds et al. [PDF]
برنامج تعليمي حول التحقق من مكبر الصوت المستقل عن النص (2004) ، Frédéric Bimbot et al. [PDF]
الشبكات العصبية العميقة للتحقق من مكبر الصوت المعتمد على نص البصمة الصغيرة (2014) ، E Variani et al. [PDF]
ناقلات مكبر الصوت العميقة للتحقق من مكبر الصوت شبه المستقلة عن النص (2015) ، Lantian Li et al. [PDF]
المتحدث العميق: نظام تضمين مكبر صوت عصبي من طرف إلى طرف (2017) ، Chao Li et al. [PDF]
ميزة المتحدث العميقة تعلم التحقق من السماعات المستقلة عن النص (2017) ، Lantian Li et al. [PDF]
التحقق من المتحدث العميق: هل نحتاج إلى نهاية إلى النهاية؟ (2017) ، دونغ وانغ وآخرون. [PDF]
المتحدث مع LSTM (2017) ، Quan Wang et al. [PDF]
التحقق من مكبر الصوت المستقل عن النص باستخدام الشبكات العصبية التلافيفية ثلاثية الأبعاد (2017) ، Amirsina Torfi et al. [PDF]
التحقق من مكبر الصوت المستقل عن النصوص من طرف إلى طرف مع خسارة ثلاثية على الكلمات القصيرة (2017) ، Chunlei Zhang et al. [PDF]
تضمينات الشبكة العصبية العميقة للتحقق من السماعات المستقلة عن النص (2017) ، David Snyder et al. [PDF]
التضمينات التمييزية العميقة للمدة التحقق القوية من المتحدثين (2018) ، Na Li et al. [PDF]
تعلم السمات التمييزية لتحديد والتحقق من المتحدثين (2018) ، Sarthak Yadav et al. [PDF]
فقدان الهامش الكبير Softmax للتحقق من السماعات (2019) ، Yi Liu et al. [PDF]
تعزيز الميزة غير الخاضعة للإشراف للتحقق من السماعات (2019) ، Phani Sankar Nidadavolu et al. [PDF]
تعزيز الميزات مع خسائر ميزة عميقة للتحقق من السماعات (2019) ، سوراب كاتاريا وآخرون. [PDF]
خسارة End2end المعممة للتحقق من السماعات (2019) ، Li Wan et al. [PDF]
ترميز الهرم المكاني مع تطبيع طول محدب للتحقق من السماعات المستقلة عن النص (2019) ، Youngmoon Jung et al. [PDF]
VoxSRC 2019: أول تحدي التعرف على مكبر الصوت Voxceleb (2019) ، Son Chung et al. [PDF]
لكن وصف النظام لتحدي VoxceCeleb Speaker Condition 2019 (2019) ، Hossein Zeinali et al. [PDF]
وصف نظام المعرف R&D لتحدي التحقق من مكبر الصوت قصير المدة 2021 (2021) ، Alenin et al. [PDF]
التحويل الصوتي باستخدام شبكات عصبية متكررة على المدى الطويل القائم على المدى الطويل (2015) ، Lifa Sun et al. [PDF]
propealgrams الصوتية لتحويل الصوت العديد إلى واحد دون التدريب على البيانات الموازية (2016) ، Lifa Sun et al. [PDF]
Stargan-VC: التحويل الصوتي غير المتوازي إلى العديد من العدد مع شبكات العددية النجمية (2018) ، Hirokazu Kameoka et al. [PDF]
AutoVC: نقل نمط الصوت صفري مع خسارة تلقائية فقط (2019) ، Kaizhi Qian et al. [PDF]
Stargan-VC2: إعادة التفكير في الأساليب المشروطة لتحويل الصوت في ستارغان (2019) ، Takuhiro Kaneko et al. [PDF]
التعلم غير الخاضع للرقابة من شامل إلى طرف للوحدات اللغوية المنفصلة لتحويل الصوت (2019) ، Andy T. Liu et al. [PDF]
تضمينات مكبر الصوت القائمة على الانتباه لتحويل صوت واحد (2020) ، Tatsuma Ishihara et al. [PDF]
F0 المتسق العديد من التحويل الصوتي غير المتوازي عبر Autoencoder الشرطي (2020) ، Kaizhi Qian et al. [PDF]
التحويل الصوتي غير الموازي القائم على التزامن مع التعلم العدائي (2020) ، Jing-Xuan Zhang et al. [PDF]
Stargan المحسّن لتحويل الصوت العاطفي: تعزيز جودة الصوت وزيادة البيانات (2021) ، Xiangheng He et al. [PDF]
Crank: برنامج مفتوح المصدر لتحويل الصوت غير المتوازي على أساس Autoencoder المتغير المتجه (2021) ، Kazuhiro Kobayashi et al. [PDF]
CVC: التعلم التباين لتحويل الصوت غير المتوازي (2021) ، Tingle Li et al. [PDF]
NoiseVC: نحو تحويل صوت عالي الجودة صفرية (2021) ، Shijun Wang et al. [PDF]
على نمذجة Prosody لتحويل الصوت القائم على ASR+TTS (2021) ، Wen-Chin Huang et al. [PDF]
Starganv2-VC: إطار متنوع وغير خاضع للإشراف وغير موازٍ لتحويل الصوت الطبيعي (2021) ، Yinghao Aaron Li et al. [PDF]
التحويل الصوتي صفر طلقة من خلال التعلم التمثيل الإشاري الخاضع للرقابة ذاتيا (2021) ، شيجون وانغ وآخرون. [PDF]
تقدير الإشارة من Fourier Transform القصيرة الأوقات المعدلة (1993) ، دانييل دبليو غريفين وآخرون. [PDF]
تخليق النص إلى الكلام (2009) ، بول تايلور وآخرون. [PDF]
خوارزمية سريعة غريفين (2013) ، ناثانيل بيرودين وآخرون. [PDF]
TTS Synthesis مع شبكات عصبية متكررة قائمة على LSTM ثنائية الاتجاه (2014) ، Yuchen Fan et al. [PDF]
الخطوة الأولى نحو توليف TTS المعدوار من طرف إلى طرف: توليد معلمات طيفية مع الاهتمام العصبي (2016) ، Wenfu Wang et al. [PDF]
التطورات الحديثة في جوجل في الوقت الفعلي في الوقت الفعلي لملاكن الوحدة التي يحركها HMM (2016) ، Xavi Gonzalvo et al. [PDF]
Samplernn: نموذج توليد الصوت العصبي غير المشروط (2016) ، Soroush Mehri et al. [PDF]
Wavenet: نموذج توليدي لـ Raw Audio (2016) ، Aäron Van Den Oord et al. [PDF]
char2wav: Synthesis Counter Synthesis (2017) ، J Sotelo et al. [PDF]
صوت عميق: النص العصبي في الوقت الحقيقي (2017) ، Sercan O. Arik et al. [PDF]
Deep Voice 2: Multi-Speaker Neural Text-to-Speed (2017) ، Sercan Arik et al. [PDF]
الصوت العميق 3: 2000 مكبرات الصوت العصبية إلى الكلام (2017) ، Wei Ping et al. [PDF]
تخليق TTS الطبيعي عن طريق تكييف Wavenet على تنبؤات MEL الطيفية (2017) ، جوناثان شين وآخرون. [PDF]
Wavenet الموازي: توليف الكلام السريع عالي الدقة (2017) ، آرون فان دن أوورد وآخرون. [PDF]
تخليق الكلام الحدودي الإحصائي باستخدام شبكات الخصومة التوليدية تحت إطار تعليمي متعدد المهام (2017) ، S Yang et al. [PDF]
Tacotron: نحو تخليق الكلام من طرف إلى طرف (2017) ، Yuxuan Wang et al. [PDF]
الكشف عن عوامل النمط الكامن لتوليف الكلام التعبيري (2017) ، Yuxuan Wang et al. [PDF]
Voiceloop: تركيب الصوت والتوليف عبر حلقة صوتية (2017) ، Yaniv Taigman et al. [PDF]
الكلارينيت: توليد الموجة الموازية في النص إلى الخط إلى الكلام (2018) ، Wei Ping et al. [PDF]
شبكات الذاكرة المتسلسلة في التغذية العميقة لتوليف الكلام (2018) ، Mengxiao Bi et al. [PDF]
LPCNET: تحسين تخليق الكلام العصبي من خلال التنبؤ الخطي (2018) ، Jean-Marc Valin et al. [PDF]
تعلم تمثيلات كامنة للتحكم في الأسلوب ونقلها في تخليق الكلام الشامل (2018) ، YA-Jie Zhang et al. [PDF]
استنساخ الصوت العصبي مع بعض العينات (2018) ، Sercan O. Arık et al. [PDF]
التنبؤ بأسلوب التحدث التعبيري من النص في تخليق الكلام الشامل (2018) ، ديزي ستانتون وآخرون. [PDF]
الرموز النمطية: نمذجة النمذجة غير الخاضعة للرقابة والتحكم والنقل في تخليق الكلام من طرف إلى طرف (2018) ، Y Wang et al. [PDF]
نحو النقل الشامل للضغط على توليف الكلام التعبيري مع Tacotron (2018) ، RJ Skerry-Ryan et al. [PDF]
دوريان: شبكة الانتباه المستنيرة لتوليف متعدد الوسائط (2019) ، Chengzhu Yu et al. [PDF]
انعكاس Spectrogram السريع باستخدام الشبكات العصبية التلافيفية متعددة الرأس (2019) ، Sö Arık et al. [PDF]
Fastspeech: نص سريع وقوي ويمكن التحكم فيه إلى الكلام (2019) ، يي رين وآخرون. [PDF]
تعلم التحدث بطلاقة بلغة أجنبية: تخليق الكلام متعدد اللغات والاستنساخ الصوتي عبر اللغة (2019) ، Yu Zhang et al. [PDF]
Melnet: نموذج توليدي للصوت في مجال التردد (2019) ، Sean Vasquez et al. [PDF]
توليف الكلام متعدد الكلام متعدد الكلام (2019) ، Jihyun Park et al. [PDF]
ميليغان: شبكات الخصومة التوليدية لتوليف الموجة الشرطية (2019) ، كوندان كومار وآخرون. [PDF]
تخليق الكلام العصبي مع شبكة Transformer (2019) ، Naihan Li et al. [PDF]
الموازي العصبية النص إلى الكلام (2019) ، كينان بينغ وآخرون. [PDF]
تمثيلات نصية مدربة مسبقًا لتحسين معالجة النصوص الأمامية في تخليق النص إلى الكلام الماندرين (2019) ، Bing Yang et al. [PDF]
موازي Wavegan: نموذج توليد الموجة السريعة على أساس شبكات الخصومة التوليدية مع طيف متعدد الدقة (2019) ، Ryuichi Yamamoto et al. [PDF] يخرج في نفس الوقت مثل ميليغان ، بينما لا أحد يشير إلى بعضها البعض ... إلى جانب ذلك ، أعتقد أن الضوضاء الغوسية غير ضرورية ، لأن Melspec لديه معلومات قوية للغاية.
تضمينات خطاب المشكلات غير الملحومة للرسائل النصية متعددة الكلام مع Samplernn (2019) ، David Alvarez et al. [PDF]
النمذجة الصوتية التسلسل القوي للتسلسل مع الاهتمام الرتابة التدريجي لـ Neural TTS (2019) ، Mutian He et al. [PDF]
نحو النقل التعلم لتوليف الكلام من شوط إلى النهاية من نماذج اللغة العميقة التي تم تدريبها (2019) ، Wei Fang et al. [PDF]
نقل التعلم من التحقق من مكبر الصوت إلى تخليق النص إلى الكلام متعدد النطق (2019) ، يي جيا وآخرون. [PDF]
Waveflow: نموذج قائم على التدفق المدمج لـ Raw Audio (2019) ، Wei Ping et al. [PDF]
WaveGlow: شبكة توليد قائمة على التدفق لتوليف الكلام (2019) ، R Prenger et al. [PDF]
aligntts: نظام نصي إلى خط الكلام فعال للتغذية دون حدوث خلاصة دون alignmen الصريحة (2020) ، Zhen Zeng et al. [PDF]
Boffin TTS: تكييف مكبر صوت قليلة من قبل Bayesian Optimization (2020) ، Henry B.Moss et al. [PDF]
Bunched LPCNET: Vocoder لأنظمة النصوص العصبية منخفضة التكلفة (2020) ، Ravichander Vipperla et al. [PDF]
Copycat: نقل العديد من العوامل الناتجة عن الحبيبات الناتجة عن النص العصبي (2020) ، سري كارلاباتي وآخرون. [PDF]
فعالة: بنية نصي إلى كلام فعالة وعالية الجودة (2020) ، Chenfeng Miao et al. [PDF]
نص إلى خط إلى خط الهجوم (2020) ، Jeff Donahue et al. [PDF]
Fastspeech 2: النص السريع والعالي الجودة إلى الكلام (2020) ، Yi Ren et al. [PDF]
Flowtron: شبكة توليد قائم على التدفق التلقائي لتوليف النص إلى الكلام (2020) ، Rafael Valle et al. [PDF]
Flow-TTS: شبكة غير متكافئة للنص على الكلام بناءً على Flow (2020) ، Chenfeng Miao et al. [PDF]
نمذجة إيجابيات ذات حبيبات عالية التسلسل الهرمي لتوليف الكلام القابل للتفسير (2020) ، Guangzhi Sun et al. [PDF]
توليد عينات من النص إلى الكلام المتنوع والطبيعي باستخدام VAE الحبيبات الدقيقة و prosody التلقائي الأوتوماتيكي قبل (2020) ، Guangzhi Sun et al. [PDF]
Glow-TTS: تدفق توليدي للنص إلى الكلام عن طريق البحث المحاذاة الرتابة (2020) ، Jaehyeon Kim et al. [PDF]
HIFI-GAN: شبكات الخصومة التوليدية لتوليف خطاب الكفاءة والعالي الإخلاص (2020) ، Jungil Kong et al. [PDF]
آليات الانتباه في الموقع لتوليفات الكلام الطويلة القوية (2020) ، إريك باتنبرغ وآخرون. [PDF]
Multispeech: نص متعدد الكلام إلى الكلام مع Transformer (2020) ، Mingjian Chen et al. [PDF]
التاكوترون الموازي: TTS غير التوت والتحكم (2020) ، إسحاق إلياس وآخرون. [PDF]
Robutrans: نموذج نص إلى المحول القوي المستند إلى المحول (2020) ، Naihan Li et al. [PDF]
التحقق من مكبر الصوت المستقل عن النص مع شبكة الانتباه المزدوجة (2020) ، Jingyu Li et al. [PDF]
Wavegrad: تقدير التدرجات لتوليد الموجة (2020) ، Nanxin Chen et al. [PDF]
Adaspeech: النص التكيفي إلى الكلام من أجل الصوت المخصص (2021) ، Mingjian Chen et al. [PDF]
دراسة استقصائية حول تخليق الكلام العصبي (2021) ، Xu Tan et al. [PDF]
مركبة GAN Streamwise لترميز الكلام على نطاق واسع بمعدل بتات منخفضة للغاية (2021) ، أحمد مصطفى وآخرون. [PDF]
نقل المشاعر المتقاطعة التي يمكن السيطرة عليها لتوليف الكلام من طرف إلى طرف (2021) ، Tao Li et al. [PDF]
استنساخ صوت واحد باستخدام بيانات محدودة للغاية في البرية (2021) ، Dongyang Dai et al. [PDF]
Autoencoder التباين الشرطي مع التعلم العدواني للرسائل النصية من طرف إلى طرف (2021) ، Jaehyeon Kim et al. [PDF]
Diffwave: نموذج نشر متعدد الاستخدامات لتوليف الصوت (2021) ، Zhifeng Kong et al. [PDF]
DIFF-TTS: نموذج انتشار تقليص للنص إلى الكلام (2021) ، Myeonghun Jeong et al. [PDF]
مبهجة: نظام تخليق الكلام Microsoft لـ Blizzard Challenge 2021 (2021) ، Yanqing Liu et al. [PDF]
FRE-VAN: تخليق الصوت المتناسق للترددات (2021) ، Ji-Hoon Kim et al. [PDF]
LPCNET كامل النطاق: صوت عصبي في الوقت الفعلي لـ 48 كيلو هرتز مع وحدة المعالجة المركزية (2021) ، Keisuke Matsubara et al. [PDF]
Grad-TTS: نموذج احتمالي للانتشار للنص إلى الكلام (2021) ، Vadim Popov et al. [PDF]
Glow-Wavegan: تمثيلات تعليمية الكلام من ANTODERALEAL VALINGEAL TUMERENT GAN لتوليف الكلام القائم على تدفق الإخلاص العالي (2021) ، Jian Cong et al. [PDF]
VOCODER عالية الدقة والكفاهية الشهية المفرطة العصبية القائمة على Wavernn متعددة الأطوار مع التنبؤ الخطي القائم على البيانات لنمذجة الطول الموجي المنفصل (2021) ، باتريك Lumban ToBing et al. [PDF]
النمذجة الهادئة الهرمية لتوليف الكلام غير التوت (2021) ، Chung-Ming Chien et al. [PDF]
itoˆtts و itoˆwave: المعادلة التفاضلية العشوائية الخطية هي كل ما تحتاجه لتوليد الصوت (2021) ، Shoule Wu et al. [PDF]
الطائرات: تدريب مشترك Fastspeech2 و HIFI من أجل نهاية النص على الكلام (2021) ، Dan Lim et al. [PDF]
Meta-Voice: نقل نمط سريع قليل للاستنساخ الصوتي التعبيري باستخدام Meta Learning (2021) ، Songxiang Liu et al. [PDF]
HMMs العصبية هي كل ما تحتاجه (ل TTS عالية الجودة خالية من الاهتمام) (2021) ، شيفام ميهتا وآخرون. [PDF]
تحول الملعب العصبي وتوصل الوقت مع LPCNET يمكن السيطرة عليه (2021) ، ماكس موريسون وآخرون. [PDF]
محاذاة TTS واحدة لحكمهم جميعًا (2021) ، روهان بادلاني وآخرون. [PDF]
Karatuner: نحو من النهاية إلى النهاية تصحيح الملعب الطبيعي للغناء صوت في الكاريوكي (2021) ، شياوبين تشوانغ وآخرون. [PDF]
PNG BERT: BERT المعزز على الصوتيات والرسوم البيانية لـ TTS العصبية (2021) ، يي جيا وآخرون. [PDF]
موازي Tacotron 2: نموذج TTS العصبي غير التابع للانحدار مع نمذجة مدة قابلة للتمييز (2021) ، Isaac Elias et al. [PDF]
Portaspeech: محمول وعالي الجودة من النص إلى الكلام (2021) ، يي رن وآخرون. [PDF]
النمذجة الصوتية القائمة على المحولات لتوليف الكلام البث (2021) ، Chunyang Wu et al. [PDF]
Triple M: نظام عملي عصبي إلى كلام مع اهتمام متعدد الأجزاء و LPCNET متعدد المرات (2021) ، Shilun Lin et al. [PDF]
Talknet 2: النموذج الذنيق غير القابل للعمق غير الذاتي لتوليف الكلام مع التنبؤ الصريح والمدة (2021) ، Stanislav Beliaev et al. [PDF] TalkNet2 له فرق بسيط من TalkNet ، لذلك لا أدرج TalkNet هنا.
نحو التحكم في النمط متعدد النطاق لتوليف الكلام التعبيري (2021) ، Xiang Li et al. [PDF]
GAN المصدر الموحد: شبكة مرشح المصدر الموحدة تعتمد على عوامل الموجة الموازية شبه الفسيوية (2021) ، Reo Yoneyama et al. [PDF]
Yourtts: نحو تحويل صوتي متعدد الحواس و TTS و Zero-Shot للجميع (2021) ، Edresson Casanova et al. [PDF]
Avocodo: شبكة الخصومة التوليدية لـ Vocoder الخالية من القطع الأثرية (2022) ، Taejun Bak et al. [PDF]
التعلم الخلفي للسماعات التي تتوافق باستخدام بيانات الكلام غير المنقولة عن نص إلى نصوص متعددة الناطقين (2022) ، Byoung Jin Choi et al. [PDF]
Bunched LPCNET2: صوتات عصبية فعالة تغطي الأجهزة من السحابة إلى الحافة (2022) ، Sangjun Park et al. [PDF]
نقل العاطفة المتقاطع من أجل النص إلى المحطات منخفضة الموارد باستخدام تحويل صوت غير موازٍ مع زيادة بيانات التحول في الملعب (2022) ، Ryo Terashima et al. [PDF]
Fastdiff: نموذج نشر مشروط سريع لتوليف الكلام عالي الجودة (2022) ، Rongjie Huang et al. [PDF]
Fast Grad-TTS: نحو توليد الكلام القائم على الانتشار على وحدة المعالجة المركزية (2022) ، إيفان فوفك وآخرون. [[PDF]
Glow-Wavegan 2: تخليق نص إلى خطوة عالية الجودة صفرًا وتحويلًا صوتيًا (2022) ، Yi Lei et al. [PDF]
HIFI ++: إطار موحد للمفردات العصبية ، تمديد النطاق الترددي وتعزيز الكلام (2022) ، بافيل أندريف وآخرون. [PDF]
IQDubbing: نمذجة Prosody تعتمد على تمثيل الكلام الخاضع للإشراف ذاتيا المنفصل لتحويل الصوت التعبيري (2022) ، Wendong Gan et al. [PDF]
Istftnet: Vocoder السريع وخفيف الوزن الطيف يتضمن تحويل Fourier العكسي (2022) ، Takuhiro Kaneko et al. [PDF]
خفيفة الوزن وذات خط إلى طرف من طرف إلى طرف مع جيل متعدد النطاقات وتحويل فورييه القصيرة لفترة قصيرة (2022) ، ماسايا كاوامورا وآخرون. [PDF]
تخليق الكلام العصبي على حشوة: تحسين كفاءة LPCNET (2022) ، جان مارك فالين وآخرون. [PDF]
Nansy ++: تخليق صوتي موحد مع التحليل العصبي والتوليف (2022) ، Hyeong-Seok Choi et al. [PDF]
PRIERGRAD: تحسين نماذج انتشار تقلل المشروطة مع تعتمد على البيانات قبل (2022) ، Sang-Gil Lee et al. [PDF]
requertts: يمكن التحكم في نص إلى كلام مع أوصاف نصية (2022) ، Zhifang Guo et al. [PDF]
Sane-TTS: مستقر وطبيعي من النص إلى خط الكبير (2022) ، Hyunjae Cho et al. [PDF]
تعزيز الكلام العصبي في مجال STFT مع زمن انتقال خوارزمي منخفض للغاية (2022) ، Zhong-QIU Wang et al. [PDF]
تخليق الكلام البسيط والفعال غير الخاضع للإشراف (2022) ، ألكساندر هـ. ليو وآخرون. [PDF]
SPECGRAR: VOCODER NEURALICAL النموذجية القائمة على النموذج مع تشكيل طيفي للضوضاء التكيفية (2022) ، Yuma Koizumi et al. [PDF]
مرشح المصدر HIFI-GAN: Fast and Pitch High-Fidelity Neural Vocoder (2022) ، Reo Yoneyama et al. [PDF]
Trinitts: TTS يمكن السيطرة عليها من طرف إلى طرف دون محاذاة خارجي (2022) ، يون تشيول جو وآخرون. [PDF]
نقل صفر لقطات العرضية باستخدام تشفير متعدد الطبقات وتمثيل مكبر الصوت الفعال (2022) ، Yibin Zheng et al. [PDF]
EndrectTts: نمذجة TTS التعبيرية في الفضاء الكامن المنفصل مع موجه نمط اللغة الطبيعية (2023) ، Dongchao Yang et al. [PDF]
Matcha-TTS: بنية TTS سريعة مع مطابقة التدفق الشرطي (2023) ، شيفام ميهتا وآخرون. [PDF]
Mega-TTS: نص إلى نص صفري على النطاق مع التحيز الاستقرائي الجوهري (2023) ، Ziyue Jiang et al. [PDF]
Mega-TTS 2: Text-Shot text-to-tpeech مع مطالبات الكلام الطول التعسفي (2023) ، Ziyue Jiang et al. [PDF]
نماذج N-Gram المستندة إلى الطبقة من اللغة الطبيعية (1992) ، بيتر ف. براون وآخرون. [PDF]
دراسة تجريبية لتقنيات التنعيم لنمذجة اللغة (1996) ، ستانلي ف. تشن وآخرون. [PDF]
نموذج لغة احتمالية عصبية (2000) ، Yoshua Bengio et al. [PDF]
نهج إحصائي جديد لمدخلات Pinyin الصينية (2000) ، Zheng Chen et al. [PDF]
نمذجة لغة N-Gram التمييزية (2007) ، براين روارك وآخرون. [PDF]
نموذج لغة الشبكة العصبية لمحرك طريقة إدخال Pinyin الصينية (2015) ، S Chen et al. [PDF]
التدريب الفعال وتقييم نماذج لغة الشبكة العصبية المتكررة للتعرف على الكلام التلقائي (2016) ، Xie Chen et al. [PDF]
استكشاف حدود نمذجة اللغة (2016) ، R Jozefowicz et al. [PDF]
On the State of the Art of Evaluation in Neural Language Models (2016), G Melis et al. [pdf]
Pay Less Attention with Lightweight and Dynamic Convolutions (2019), Felix Wu et al.[pdf]
Estimating Confidence using Word Lattices (1997), T. Kemp et al. [pdf]
Large vocabulary decoding and confidence estimation using word posterior probabilities (2000), G. Evermann et al. [pdf]
Combining Information Sources for Confidence Estimation with CRF Models (2011), MS Seigel et al. [pdf]
Speaker-Adapted Confidence Measures for ASR using Deep Bidirectional Recurrent Neural Networks (2018), M. ́A. Del-Agua et al. [pdf]
Bi-Directional Lattice Recurrent Neural Networks for Confidence Estimation (2018), Q. Li et al. [pdf]
Confidence Estimation for Black Box Automatic Speech Recognition Systems Using Lattice Recurrent Neural Networks (2020), A. Kastanos et al. [pdf]
CONFIDENCE ESTIMATION FOR ATTENTION-BASED SEQUENCE-TO-SEQUENCE MODELS FOR SPEECH RECOGNITION (2020), Qiujia Li et al. [pdf]
Residual Energy-Based Models for End-to-End Speech Recognition (2021), Qiujia Li et al. [pdf]
Multi-Task Learning for End-to-End ASR Word and Utterance Confidence with Deletion Prediction (2021), David Qiu et al. [pdf]
Onsets and Frames: Dual-Objective Piano Transcription (2017), Curtis Hawthorne et al. [pdf]
Unsupervised Singing Voice Conversion (2019), Eliya Nachmani et al. [pdf]
ByteSing- A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders (2020), Yu Gu et al. [pdf]
DurIAN-SC: Duration Informed Attention Network based Singing Voice Conversion System (2020), Liqiang Zhang et al. [pdf]
HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis (2020), Jiawei Chen et al. [pdf]
Jukebox: A Generative Model for Music (2020), Prafulla Dhariwal et al. [pdf]
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism (2021), Jinglin Liu et al. [pdf]
MLP Singer: Towards Rapid Parallel Korean Singing Voice Synthesis (2021), Jaesung Tae et al. [pdf]
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus (2021), Rongjie Huang et al. [pdf]
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training (2021), Mingliang Zeng et al. [pdf]
N-Singer: A Non-Autoregressive Korean Singing Voice Synthesis System for Pronunciation Enhancement (2021), Gyeong-Hoon Lee et al. [pdf]
Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource Highly Expressive Speech (2021), Raahil Shah et al. [pdf]
PeriodNet: A non-autoregressive waveform generation model with a structure separating periodic and aperiodic components (2021), Yukiya Hono et al. [pdf]
Sequence-to-Sequence Piano Transcription with Transformers (2021), Curtis Hawthorne et al. [pdf]
M4Singer: a Multi-Style, Multi-Singer and Musical Score Provided Mandarin Singing Corpus (2022), Lichao Zhang et al. [pdf]
Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis (2022), Yu Wang et al. [pdf]
WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses (2022), Zewang Zhang et al. [pdf]
WeSinger 2: Fully Parallel Singing Voice Synthesis via Multi-Singer Conditional Adversarial Training (2022), Zewang Zhang et al. [pdf]
The Reversible Residual Network: Backpropagation Without Storing Activations (2017), Aidan N. Gomez et al. [pdf]
Soft-DTW: a Differentiable Loss Function for Time-Series (2018), Marco Cuturi et al. [pdf]
FlowSeq: Non-Autoregressive Conditional Sequence Generation with Generative Flow (2019), Xuezhe Ma et al. [pdf]
Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks (2019), Santiago Pascual et al. [pdf]
Self-supervised audio representation learning for mobile devices (2019), Marco Tagliasacchi et al. [pdf]
SinGAN: Learning a Generative Model from a Single Natural Image (2019), Tamar Rott Shaham et al. [pdf]
Audio2Face: Generating Speech/Face Animation from Single Audio with Attention-Based Bidirectional LSTM Networks (2019), Guanzhong Tian et al. [pdf]
Attention is Not Only a Weight: Analyzing Transformers with Vector Norms (2020), Goro Kobayashi et al. [pdf]