
การเรียนรู้อย่างลึกซึ้งสำหรับเสียง (DLA)
- การบรรยายและวัสดุสัมมนาสำหรับแต่ละสัปดาห์อยู่ใน
./week* โฟลเดอร์ดู README.md สำหรับวัสดุและคำแนะนำ - ปัญหาทางเทคนิคความคิดข้อบกพร่องในสื่อหลักสูตรแนวคิดการสนับสนุน - เพิ่มปัญหา
- เวอร์ชันปัจจุบันของหลักสูตรดำเนินการใน ฤดูใบไม้ร่วงปี 2024 ที่คณะ CS ของ HSE
สำหรับรุ่นปีก่อน ๆ ดูที่ส่วนเวอร์ชันที่ผ่านมา
หลักสูตร
สัปดาห์ 01 บทนำสู่หลักสูตร
- การบรรยาย: บทนำสู่หลักสูตร
- การสัมมนา: การติดตามการทดลอง,
Hydra , Git , VS code - การศึกษาด้วยตนเอง: บทนำสู่
PyTorch
Week02 บทนำเกี่ยวกับการประมวลผลสัญญาณดิจิตอล
- การบรรยาย: สัญญาณ, การแปลงฟูริเยร์, spectrograms, melscale, mfcc
- การสัมมนา: DSP ในทางปฏิบัติการสร้างสเปกโทรครัม, IRF, การกรองความถี่
Week03 การจดจำคำพูด I
- การบรรยาย: ตัวชี้วัด, ชุดข้อมูล, การจำแนกประเภทการเชื่อมต่อชั่วคราว (CTC), โมเดลคลาสสิก, การค้นหาลำแสง, แบบจำลองภาษา
- สัมมนา: การเพิ่มเสียง, การค้นหาลำแสง
- คำถาม & คำตอบ: การอภิปรายการบ้าน, เคล็ดลับการเข้ารหัส R&D
Week04 การรับรู้คำพูด II
- การบรรยาย: LAS, RNN-T, แบบจำลองภาษาสำหรับ RNN-T และ LAS
- การสัมมนา: การฝึกอบรมแบบจำลองและการอนุมานแบบจำลอง RNN-T และ CTC แบบไฮบริดและ CTC
การบรรยาย ประจำสัปดาห์ ของแขกรับเชิญ การรู้จำเสียง III และ Audio SSL
- การบรรยาย: โมเดลที่ดูแลตนเองสำหรับเสียง, เสียง LLMS
Week06 Source Separation i
- การบรรยาย: การทบทวนการแยกแหล่งที่มาทั่วไปและการ denoising, สถาปัตยกรรม encoder-decoder-separator, ครอบครัว Demucs, DCCRN, FullSubnet+, BandsPlitRnn
- สัมมนา: ตัวชี้วัด
Week07 Source Separation II
- การบรรยาย: การแยกคำพูด, การแยกคนตาบอดและเป้าหมาย, กำเริบ (tasnet, dprnn, voicefilter) และ CNN (Convtasnet, SPEX+)
- สัมมนา: Wienerfilter, Sincfilter และ Demucs; การประมวลผลการสตรีมและการวัดประสิทธิภาพ
Week08 การเรียนรู้เชิงลึกด้านเสียงและเสียง
- การบรรยาย: ฟิวชั่นภาพและเสียง, การแยกแหล่งที่มา, การรู้จำเสียงและโมเดลที่ดูแลตนเอง wav2lip และ sadtalker (พูดคุย)
- คำถาม & คำตอบ: โครงการและการอภิปราย Slurm
- การสัมมนาพิเศษ: สร้างผู้ช่วยเสียงอัจฉริยะของคุณเอง
Week09 Text to Speech (TTS)
- การบรรยาย: Tacotron, Deepvoice, GST, Fastspeech, Adaspeech, Tricks ความสนใจ
- สัมมนา: เลื่อนออกไป
สัปดาห์ที่ 10 นักร้องประสาท
- การบรรยาย: Wavenet, Wavegan คู่ขนาน, Waveglow, Melgan, Hifigan
- การสัมมนา: Fastspeech I, TTS Pipeline: จากข้อความเป็นเสียง
TTS ที่ใช้การแพร่กระจายของ สัปดาห์ที่ 11
- การบรรยาย: แนวคิดการแพร่กระจาย นักร้องการแพร่กระจายและโมเดลอะคูสติกการแพร่กระจาย
สัปดาห์ที่ 12 เสียงไบโอเมตริกซ์ I
- การบรรยาย: บทนำ เสียงก้อง CMS สำหรับการตรวจจับคำพูดที่บันทึกและสังเคราะห์ (LCNN, Rawnet2, AASIST) gnns
- สัมมนา: ASVSPOOF, SINC-LAYER, GNN
สัปดาห์ที่ 13 Biometry II
- การบรรยายแขก: เครือข่าย Kolmogorov-Arnold (Kans), AASIST3, ASVSPOOF5
- การบรรยาย: ระบบ ASV ระบบ SASV การสตรีม
สัปดาห์ที่ 14 AI สำหรับดนตรี
- การบรรยาย: ภาพรวมงานการดึงข้อมูลเพลงการสร้างเพลง
การบ้านและโครงการ
- HW_ASR การฝึกอบรมรูปแบบการจดจำคำพูด
- Project_avss ฝึกอบรมรูปแบบการแยกเสียงพูดด้วยเสียง
- การใช้งาน HW_NV ของโมเดล TTS (Neural Vocoder)
ดูเทมเพลตโครงการของเรา
ทรัพยากร
- การบรรยายการบันทึกบน YouTube (เป็นภาษารัสเซีย)
บางสัปดาห์มีการบันทึกภาษาอังกฤษ ดูไดเรกทอรีย่อยที่สอดคล้องกัน
ผู้มีส่วนร่วมและเจ้าหน้าที่หลักสูตร
สื่อการเรียนการสอนและการสอน (ในปีที่แตกต่างกัน) ถูกส่งโดย:
- Maxim Kaledin
- Petr Grinberg
- Grigory Fedorov
- Aibek Alanov
- Alexander Markovich (ก่อนหน้านี้)
- Daniil Ivanov (ก่อนหน้านี้)
- Ilya Lewin (ก่อนหน้านี้)
- Timofey Smirnov (ก่อนหน้านี้)
- Alexander Mamaev (ก่อนหน้านี้)
เวอร์ชันที่ผ่านมา