All About Speech - All About Speech

All About Speech

كود الذكاء الاصطناعي

1.0.0

تنزيل

كل شيء عن الكلام

ينظم هذا المستودع الأوراق والمواد التعليمية والرموز لغرض فهم الكلام. هناك مستودع آخر للآلة/التعلم العميق هنا.

إلى DOS:

تنظيم النجوم
أضف المزيد من الأوراق
- أوراق للقراءة:
  1. الكلام = T: محول الطاقة ل TTS وما بعده

TTS

TTS
- DC-TTS [[Paper]] [Pytorch] [TensorFlow]
- Lightspeech من Microsoft [[ورقة]] [رمز]
- الكلام [[ورقة]] [رمز]
- Tacotron غير الحاقدة [ورقة] [Pytorch]
- التاكوترون الموازي 2 [[ورقة]] [رمز]
- FCL-TACO2: نسخة سريعة ، يمكن التحكم فيها وخفيفة الوزن من Tacotron2 [[Paper]] [رمز]
- Transformer TTS: تخليق الكلام العصبي مع شبكة المحولات [[ورقة]] [رمز]
- Vits: Autoencoder التباين الشرطي مع التعلم العدائي للرسائل النصية إلى الخطوة إلى الخطية [[Paper]] [رمز]
- مصلح TTS (تكييف المصلح مع TTS) [رمز]
TTS المستندة إلى المطالبة (انظر [الرابط])
تحويل الصوت / استنساخ الصوت / مكبر الصوت
- Stargan-VC: التحويل الصوتي غير المتوازي إلى العديد من العدد مع شبكات عدوانية تولد النجمة [[Paper]] [رمز]
- استنساخ الصوت العصبي مع عدد قليل من عينات الصوت (Baidu) [[Paper]] [رمز]
- ASSESS-VC: تحويل صوتي واقعي عن طريق تجميع تقنيات توليف الكلام الحديثة [[ورقة]] [رمز]
- UNET-TTS: تحسين مكبر الصوت غير المرئي ونقل النمط في استنساخ صوت واحد [ورقة] [رمز]
- FragmentVC: أي تحويل صوتي عن طريق الاستخراج الشامل والاندماج شظايا صوتية دقيقة مع الانتباه [[ورقة]] [رمز]
- VectorQuantizedCPC: الترميز التنبئي المتنبؤية المقتطف لاكتشاف الوحدة الصوتية وتحويل الصوت [[ورقة]] [رمز]
- Cotatron: تشفير الكلام الموجهة للنسخ لتحويل الصوت إلى أي شيء دون بيانات متوازية [[ورقة]] [رمز]
- مرة أخرى-VC: تحويل صوت واحد باستخدام إرشادات التنشيط وتطبيع المثيل التكيفي [[ورقة]] [رمز]
- AutoVC: نقل نمط الصوت صفر طلقة مع خسارة تلقائية فقط [[ورقة]] [رمز]
- SC-Glowtts: نموذج فعال متعدد النصفيات من النطق الصدري الصدري [رمز] [رمز]
- المتحدث العميق: نظام تضمين مكبر صوت عصبي من طرف إلى طرف [[ورقة]] [رمز]
- VQMIVC: تحويل صوتي واحد (أي من أي شخص) [[ورقة]] [رمز]
الأسلوب (العاطفة ، الإثارة)
- TTS Smart-TTS العاطفية المفردة [رمز]
- نقل العاطفة المتحدث [[ورقة]] [رمز]
- Autopst: نقل نمط الإيقاع العالمي بدون نسخ نصية [[ورقة]] [رمز]
- تحويل الطيف و prosody لتحويل الصوت العاطفي مع بيانات التدريب غير الموازية [[ورقة]] [رمز]
- تعدد الأداء العصبي TTS مع تناسق دورة العدواني [[ورقة]] [رمز]
- تعلم تمثيلات كامنة للتحكم في الأسلوب ونقلها في تخليق الكلام الشامل (Tacotron-VAE) [[ورقة]] [رمز]
- نقل النمط الصوتي العصبي المجال (NIPS 2017) [[ورقة]] [رمز]
- Meta-Stylespeech و Stylespeech [[Paper]] [رمز]
- نقل العاطفة المتقاطعة على أساس تطبيع طبقة Conditino المتكلم والتدريب شبه الخاضع للإشراف في نص إلى كلام [[ورقة]] [رمز]
عبر اللغات
- تبديل الكود من طرف إلى طرف مع نموذج لغة متقاطعة
  - الماندرين والإنجليزية
  - عبر اللغات والمتعددة
  - خط الأساس: "بناء نظام TTS العصبي المختلط مع البيانات أحادية اللغة فقط"
- بناء نظام TTS العصبي المختلط مع البيانات أحادية اللغة فقط
- نقل التعلم ، والتحكم في النمط ، وفقدان إعادة بناء السماعات لصفوفًا متعددة اللغات ، نصوص متعددة الكلام على اللغات ذات الموارد المنخفضة
  - لديه العديد من المراجع الجيدة
- استكشاف DisentAngled مع VQ-VAE متعدد اللغات وحيدة
الموسيقى ذات الصلة
- تعلم الجمال في الأغاني: صوت الغناء العصبي Beautifier (ACL 2022) [[Paper]] [Code]
- خطاب الغناء (interspeech 2020) [[ورقة]] [رمز]
- Diffsinger: غناء تخليق الصوت عبر آلية الانتشار الضحلة (AAAI 2022) [[ورقة]] [رمز]
- شبكة ترجمة الموسيقى العالمية (ICLR 2019)
- Jukebox: نموذج توليدي للموسيقى (Openai) [ورقة] [رمز]
مجموعات الأدوات
- IMS TOUCAN CLECK Synthesis Toolkit [Paper] [CODE]
- Crepe Pitch Tracker [رمز]
- الكلام - أدوات مفيدة لتسهيل أبحاث الكلام [رمز]
الصوت
انتباه
- الاهتمام المحلي [رمز]

ASR

نحو فهم اللغة المنطوقة من طرف إلى طرف

تصنيف الكلام ، الكشف ، المرشح ، إلخ.

HTS-AT: محول صوت رمز رمز رمزي هرمي لتصنيف الصوت والكشف [[ورقة]] [رمز]
نظام صوتي من Google AI [[Paper]] [رمز]
تحسين التعرف على العاطفة من طرف إلى طرف باستخدام آلية انتباه الذات وتعلم المهام المتعددة (Interspeech 2019) [[Paper]] [رمز]
التعرف على العاطفة متعددة الوسائط مع ميزة Self Self-Selfly القائمة على Tranformer [[Paper]] [رمز]
التعرف على العاطفة من الكلام باستخدام تضمينات WAV2VEC 2.0 (Interspeech 2021) [[Paper]] [رمز]
استكشاف WAV2VEC 2.0 صقل دقيق لتحسين التعرف على العاطفة [[ورقة]] [رمز]
إعادة التفكير في نماذج CNN لتصنيف الصوت [[ورقة]] [رمز]
التعرف على العاطفة المستندة إلى EEG باستخدام sincnet [[paper]] [رمز]

التحقق من المتحدث

تجميع اليقظة المتقاطعة للتحقق من السماعة (IEEE SLT 2021) [[ورقة]] [رمز]

اللغويات

مجموعات البيانات

VggSound: مجموعة بيانات صوتية ومرئية واسعة النطاق [[ورقة]] [رمز]
CSS10: مجموعة من مجموعات خطاب مكبر الصوت الفردية لـ 10 Langauges [رمز]
IEMOCAP: 12 ساعة من البيانات السمعية البصرية مع 10 ممثلين من الذكور والإناث [الموقع]
voxceleb [repo]

زيادة البيانات

المسموعات (زيادة بيانات الصوت السريع في Pytorch) [رمز]

محاذاة

مونتريال القسري

للكوري [رابط]

البيانات (قبل) المعالجة / التعزيز

البيانات (قبل) المعالجة

النطق الكوري والروماني على أساس وحدة Ko-Pron Lua Wiktionary [رمز]
معالجة الإشارات الصوتية [رمز]
الميزات الصوتية (للورقة "الميزات الصوتية لتوليف الكلام متعدد اللغات 0 طلقة") [[ورقة]] [رمز]
Smart-G2P (تغيير تعبيرات اللغة الإنجليزية والكانجي في الجملة الكورية إلى النطق الكوري) [رمز]
Kakao Grapheme إلى حزمة تحويل Phoneme لـ "Mandarin" [رمز]
أداة الكلام Webaverse [رمز]