
التعلم العميق للصوت (DLA)
- محاضرة ومواد ندوة لكل أسبوع في
README.md ./week* - أي مشكلات فنية ، أفكار ، أخطاء في مواد الدورة التدريبية ، أفكار المساهمة - أضف مشكلة
- يتم إجراء النسخة الحالية من الدورة التدريبية في خريف 2024 في كلية CS في HSE.
للاطلاع على إصدارات السنوات السابقة ، انظر قسم الإصدارات السابقة.
منهج
Week01 مقدمة للدورة التدريبية
- المحاضرة: مقدمة في الدورة التدريبية
- ندوة: تتبع التجربة ،
Hydra ، Git ، VS code - الدراسة الذاتية: مقدمة إلى
PyTorch
Week02 مقدمة لمعالجة الإشارات الرقمية
- المحاضرة: إشارات ، تحويل فورييه ، طيف ، melscale ، MFCC
- ندوة: DSP في الممارسة العملية ، إنشاء الطيف ، IRF ، تصفية التردد
Week03 التعرف على الكلام أنا
- المحاضرة: المقاييس ، مجموعات البيانات ، التصنيف الزمني للاتصال (CTC) ، النماذج الكلاسيكية ، البحث عن الشعاع ، نماذج اللغة
- ندوة: زيادة الصوت ، بحث شعاع
- جلسة أسئلة وأجوبة: مناقشة الواجب المنزلي ، نصائح الترميز البحث والتطوير
Week04 التعرف على الكلام II
- محاضرة: LAS ، RNN-T ، نماذج لغة لـ RNN-T و LAS
- ندوة: Hybrid RNN-T و CTC النموذجية والاستدلال
محاضرة Week05 ضيف. التعرف على الكلام الثالث والصوت SSL
- المحاضرة: نماذج خاضعة للإشراف ذاتيا للصوت ، الصوت LLMS
week06 فصل مصدر أنا
- المحاضرة: مراجعة لفصل المصدر العام وبين التشفير ، بنية مشفر-سبار ، عائلة Demucs ، DCCRN ، FullSubnet+، Bandsplitrnn
- ندوة: مقاييس
Week07 مصدر الفصل الثاني
- المحاضرة: فصل الكلام ، الفصل الأعمى والهدف ، المتكرر (TASNET ، DPRNN ، Voicefilter) و CNN (Convtasnet ، SPEX+)
- ندوة: Wienerfilter ، sincfilter و demucs ؛ معالجة البث وأداء مقاييس الأداء
الأسبوع 08 التعلم العميق الصوتي والبصري
- المحاضرة: الانصهار الصوتي والبصري وفصل المصدر والتعرف على الكلام والنماذج الخاضعة للإشراف ذاتيا. wav2lip و sadtalker (وجه الحديث)
- سؤال وجواب: مناقشة المشروع و slurm
- ندوة إضافية: قم بإنشاء مساعد صوت ذكي خاص بك
Week09 نص إلى الكلام (TTS)
- المحاضرة: Tacotron ، Deepvoice ، GST ، Fastspeech ، Adaspeech ، حيل الانتباه
- ندوة: تأجيل
أسبوع 10 من المتفرجين العصبيين
- محاضرة: Wavenet ، Wavegan ، Waveglow ، Melgan ، Hifigan
- ندوة: Fastspeech I ، TTS Pipeline: من النص إلى الصوت
TTS Week11 القائم على الانتشار
- المحاضرة: مفهوم الانتشار. صوت الانتشار والنماذج الصوتية الانتشار.
الأسبوع 12 القياس الحيوي الصوتي أنا
- محاضرة: مقدمة. صدى. CMS للكشف عن الكلام المسجلة والتوليف (LCNN ، RAWNET2 ، AASIST). gnns
- ندوة: ASVSPOOF ، SINC-LAYER ، GNN
الأسبوع 13 الصوتية القياس الحيوي الثاني
- محاضرة ضيف: شبكات Kolmogorov-Arnold (KANS) ، AASIST3 ، ASVSPOOF5
- محاضرة: أنظمة ASV. SASV أنظمة. جاري
الأسبوع 14 من الذكاء الاصطناعي للموسيقى
- المحاضرة: نظرة عامة على المهام واسترجاع معلومات الموسيقى وتوليد الموسيقى
المنازل والمشاريع
- HW_ASR تدريب نموذج التعرف على الكلام
- تدريب Project_avss نموذج فصل الكلام الصوتي والبصري
- تنفيذ HW_NV لنموذج TTS (Vocoder العصبي)
انظر قالب مشروعنا.
موارد
- تسجيلات محاضرة على يوتيوب (باللغة الروسية)
بعض الأسابيع لديها تسجيلات الإنجليزية. انظر المشاريع الفرعية المقابلة.
المساهمين وموظفي الدورة التدريبية
تم تسليم مواد الدورة التدريبية والتدريس (في السنوات المختلفة) بواسطة:
- مكسيم كاليدن
- بيتر غرينبرغ
- جريجوري فيدوروف
- Aibek Alanov
- ألكساندر ماركوفيتش (سابقًا)
- دانييل إيفانوف (سابقا)
- إيليا لوين (سابقا)
- تيموفي سميرنوف (سابقا)
- ألكساندر ماميف (سابقًا)
الإصدارات السابقة