كل شيء عن الكلام
ينظم هذا المستودع الأوراق والمواد التعليمية والرموز لغرض فهم الكلام. هناك مستودع آخر للآلة/التعلم العميق هنا.
إلى DOS:
- تنظيم النجوم
- أضف المزيد من الأوراق
- أوراق للقراءة:
- الكلام = T: محول الطاقة ل TTS وما بعده
TTS
TTS
- DC-TTS [[Paper]] [Pytorch] [TensorFlow]
- Lightspeech من Microsoft [[ورقة]] [رمز]
- الكلام [[ورقة]] [رمز]
- Tacotron غير الحاقدة [ورقة] [Pytorch]
- التاكوترون الموازي 2 [[ورقة]] [رمز]
- FCL-TACO2: نسخة سريعة ، يمكن التحكم فيها وخفيفة الوزن من Tacotron2 [[Paper]] [رمز]
- Transformer TTS: تخليق الكلام العصبي مع شبكة المحولات [[ورقة]] [رمز]
- Vits: Autoencoder التباين الشرطي مع التعلم العدائي للرسائل النصية إلى الخطوة إلى الخطية [[Paper]] [رمز]
- مصلح TTS (تكييف المصلح مع TTS) [رمز]
TTS المستندة إلى المطالبة (انظر [الرابط])
تحويل الصوت / استنساخ الصوت / مكبر الصوت
- Stargan-VC: التحويل الصوتي غير المتوازي إلى العديد من العدد مع شبكات عدوانية تولد النجمة [[Paper]] [رمز]
- استنساخ الصوت العصبي مع عدد قليل من عينات الصوت (Baidu) [[Paper]] [رمز]
- ASSESS-VC: تحويل صوتي واقعي عن طريق تجميع تقنيات توليف الكلام الحديثة [[ورقة]] [رمز]
- UNET-TTS: تحسين مكبر الصوت غير المرئي ونقل النمط في استنساخ صوت واحد [ورقة] [رمز]
- FragmentVC: أي تحويل صوتي عن طريق الاستخراج الشامل والاندماج شظايا صوتية دقيقة مع الانتباه [[ورقة]] [رمز]
- VectorQuantizedCPC: الترميز التنبئي المتنبؤية المقتطف لاكتشاف الوحدة الصوتية وتحويل الصوت [[ورقة]] [رمز]
- Cotatron: تشفير الكلام الموجهة للنسخ لتحويل الصوت إلى أي شيء دون بيانات متوازية [[ورقة]] [رمز]
- مرة أخرى-VC: تحويل صوت واحد باستخدام إرشادات التنشيط وتطبيع المثيل التكيفي [[ورقة]] [رمز]
- AutoVC: نقل نمط الصوت صفر طلقة مع خسارة تلقائية فقط [[ورقة]] [رمز]
- SC-Glowtts: نموذج فعال متعدد النصفيات من النطق الصدري الصدري [رمز] [رمز]
- المتحدث العميق: نظام تضمين مكبر صوت عصبي من طرف إلى طرف [[ورقة]] [رمز]
- VQMIVC: تحويل صوتي واحد (أي من أي شخص) [[ورقة]] [رمز]
الأسلوب (العاطفة ، الإثارة)
- TTS Smart-TTS العاطفية المفردة [رمز]
- نقل العاطفة المتحدث [[ورقة]] [رمز]
- Autopst: نقل نمط الإيقاع العالمي بدون نسخ نصية [[ورقة]] [رمز]
- تحويل الطيف و prosody لتحويل الصوت العاطفي مع بيانات التدريب غير الموازية [[ورقة]] [رمز]
- تعدد الأداء العصبي TTS مع تناسق دورة العدواني [[ورقة]] [رمز]
- تعلم تمثيلات كامنة للتحكم في الأسلوب ونقلها في تخليق الكلام الشامل (Tacotron-VAE) [[ورقة]] [رمز]
- نقل النمط الصوتي العصبي المجال (NIPS 2017) [[ورقة]] [رمز]
- Meta-Stylespeech و Stylespeech [[Paper]] [رمز]
- نقل العاطفة المتقاطعة على أساس تطبيع طبقة Conditino المتكلم والتدريب شبه الخاضع للإشراف في نص إلى كلام [[ورقة]] [رمز]
عبر اللغات
- تبديل الكود من طرف إلى طرف مع نموذج لغة متقاطعة
- الماندرين والإنجليزية
- عبر اللغات والمتعددة
- خط الأساس: "بناء نظام TTS العصبي المختلط مع البيانات أحادية اللغة فقط"
- بناء نظام TTS العصبي المختلط مع البيانات أحادية اللغة فقط
- نقل التعلم ، والتحكم في النمط ، وفقدان إعادة بناء السماعات لصفوفًا متعددة اللغات ، نصوص متعددة الكلام على اللغات ذات الموارد المنخفضة
- لديه العديد من المراجع الجيدة
- استكشاف DisentAngled مع VQ-VAE متعدد اللغات وحيدة
الموسيقى ذات الصلة
- تعلم الجمال في الأغاني: صوت الغناء العصبي Beautifier (ACL 2022) [[Paper]] [Code]
- خطاب الغناء (interspeech 2020) [[ورقة]] [رمز]
- Diffsinger: غناء تخليق الصوت عبر آلية الانتشار الضحلة (AAAI 2022) [[ورقة]] [رمز]
- شبكة ترجمة الموسيقى العالمية (ICLR 2019)
- Jukebox: نموذج توليدي للموسيقى (Openai) [ورقة] [رمز]
مجموعات الأدوات
- IMS TOUCAN CLECK Synthesis Toolkit [Paper] [CODE]
- Crepe Pitch Tracker [رمز]
- الكلام - أدوات مفيدة لتسهيل أبحاث الكلام [رمز]
الصوت
انتباه
ASR
- نحو فهم اللغة المنطوقة من طرف إلى طرف
تصنيف الكلام ، الكشف ، المرشح ، إلخ.
- HTS-AT: محول صوت رمز رمز رمزي هرمي لتصنيف الصوت والكشف [[ورقة]] [رمز]
- نظام صوتي من Google AI [[Paper]] [رمز]
- تحسين التعرف على العاطفة من طرف إلى طرف باستخدام آلية انتباه الذات وتعلم المهام المتعددة (Interspeech 2019) [[Paper]] [رمز]
- التعرف على العاطفة متعددة الوسائط مع ميزة Self Self-Selfly القائمة على Tranformer [[Paper]] [رمز]
- التعرف على العاطفة من الكلام باستخدام تضمينات WAV2VEC 2.0 (Interspeech 2021) [[Paper]] [رمز]
- استكشاف WAV2VEC 2.0 صقل دقيق لتحسين التعرف على العاطفة [[ورقة]] [رمز]
- إعادة التفكير في نماذج CNN لتصنيف الصوت [[ورقة]] [رمز]
- التعرف على العاطفة المستندة إلى EEG باستخدام sincnet [[paper]] [رمز]
التحقق من المتحدث
- تجميع اليقظة المتقاطعة للتحقق من السماعة (IEEE SLT 2021) [[ورقة]] [رمز]
اللغويات
مجموعات البيانات
- VggSound: مجموعة بيانات صوتية ومرئية واسعة النطاق [[ورقة]] [رمز]
- CSS10: مجموعة من مجموعات خطاب مكبر الصوت الفردية لـ 10 Langauges [رمز]
- IEMOCAP: 12 ساعة من البيانات السمعية البصرية مع 10 ممثلين من الذكور والإناث [الموقع]
- voxceleb [repo]
زيادة البيانات
- المسموعات (زيادة بيانات الصوت السريع في Pytorch) [رمز]
محاذاة
- مونتريال القسري
البيانات (قبل) المعالجة / التعزيز
- النطق الكوري والروماني على أساس وحدة Ko-Pron Lua Wiktionary [رمز]
- معالجة الإشارات الصوتية [رمز]
- الميزات الصوتية (للورقة "الميزات الصوتية لتوليف الكلام متعدد اللغات 0 طلقة") [[ورقة]] [رمز]
- Smart-G2P (تغيير تعبيرات اللغة الإنجليزية والكانجي في الجملة الكورية إلى النطق الكوري) [رمز]
- Kakao Grapheme إلى حزمة تحويل Phoneme لـ "Mandarin" [رمز]
- أداة الكلام Webaverse [رمز]
تَحَقّق
- MCD [repo]
- يعمل الكود ، لكنني لست متأكدًا مما إذا كان ذلك صحيحًا. أرقام MCD مرتفعة بعض الشيء حتى بالنسبة لأزواج من الصوت المماثل.
أبحاث أخرى قد تساعد
- نص لتوليف الصور
- Audiomae (أجهزة الترميز التلقائية المقنعة التي تستمع) [رمز]
المنظمات
- DeepMind [repo]
- Openai [repo]
- بيت النادي: WeeklyarxivTalk [repo]
مستودعات أخرى للإشارة إلى - الكلام المشمولة/ذات الصلة
- قائمة الباحثين الكلام [repo]
- جاكسون كونغ [ريبو]
- Rosinality's ML [repo]
- IVALLESP [repo]
- خطاب DDLBOJACK قبل أن يتدرب [repo]
- نقل نمط Fuzhenxin في النص [repo]
مواد التعلم
- محاضرة معالجة الإشارات الرقمية [رابط]
- كتاب خطاب Ratsgo [الرابط]
- دورة YSDA في معالجة الكلام [رمز]
- NHN توجيه فيديو YouTube [رابط]