
Pembelajaran mendalam untuk audio (DLA)
- Bahan kuliah dan seminar untuk setiap minggu ada di
./week* folder, lihat README.md untuk bahan dan instruksi - Masalah teknis, ide, bug dalam materi kursus, ide kontribusi - tambahkan masalah
- Versi kursus saat ini dilakukan pada musim gugur 2024 di Fakultas CS HSE.
Untuk versi tahun -tahun sebelumnya, lihat bagian versi sebelumnya.
Silabus
Week01 Pengantar Kursus
- Kuliah: Pengantar Kursus
- Seminar: Pelacakan Eksperimen,
Hydra , Git , VS code - Studi diri: Pengantar
PyTorch
Week02 Pengantar Pemrosesan Sinyal Digital
- Kuliah: Sinyal, Transformasi Fourier, Spektrogram, Melscale, MFCC
- Seminar: DSP dalam Praktek, Pembuatan Spektrogram, IRF, Penyaringan Frekuensi
Pengenalan Pidato Week03 i
- Kuliah: Metrik, Dataset, Klasifikasi Temporal Connectionist (CTC), Model Klasik, Pencarian Balok, Model Bahasa
- Seminar: Augmentasi audio, pencarian balok
- Sesi Tanya Jawab: Diskusi Pekerjaan Rumah, Tip Pengkodean R&D
Pengenalan Pidato Week04 II
- Kuliah: LAS, RNN-T, Model Bahasa untuk RNN-T dan LAS
- Seminar: Pelatihan dan inferensi model RNN-T dan CTC hybrid
Ceramah Tamu Week05 . Pengenalan Pidato III dan Audio SSL
- Kuliah: Model yang di-swadaya untuk audio, audio llms
Pemisahan Sumber Week06 I
- Kuliah: Tinjauan Pemisahan Sumber Umum dan Denoising, Arsitektur Encoder-Decoder-Separator, Keluarga Demucs, DCCRN, FullSubnet+, BandsPlitRnn
- Seminar: Metrik
Week07 Sumber Pemisahan II
- Kuliah: Pemisahan Pidato, Pemisahan Buta dan Target, Berulang (Tasnet, DPRNN, Voicefilter) dan CNN (ConvtaSnet, Spex+)
- Seminar: Wienerfilter, Sincfilter dan Demucs; Metrik Pemrosesan Streaming dan Kinerja
Week08 Audio-Visual Learning
- Kuliah: Fusi Audio-Visual, Pemisahan Sumber, Pengenalan Ucapan, dan Model yang Di-swadaya. Wav2lip dan Sadtalker (Wajah Talking)
- T&J: Diskusi Proyek dan Slurm
- Seminar Ekstra: Buat Asisten Suara Cerdas Anda Sendiri
Week09 Text to Speech (TTS)
- Kuliah: Tacotron, DeepVoice, GST, Fastspeech, Adaspeech, Trik Perhatian
- Seminar: Ditunda
Week10 Vocoders saraf
- Kuliah: Wavenet, Parallel Wavegan, Waveglow, Melgan, Hifigan
- Seminar: Fastspeech I, TTS Pipeline: Dari Teks ke Audio
TTS berbasis difusi Week11
- Kuliah: Konsep Difusi. Vokoder difusi dan model akustik difusi.
Week12 Biometri Suara I
- Kuliah: Pendahuluan. Gema. CMS untuk deteksi bicara yang direkam dan disintesis (LCNN, Rawnet2, AASIST). GNNS
- Seminar: Asvspoof, SINC-LAYER, GNN
Week13 Biometri Suara II
- Kuliah Tamu: Kolmogorov-Arnold Networks (KANS), AASIST3, ASVSPOOF5
- Kuliah: Sistem ASV. Sistem SASV. Mengalir
Minggu14 AI untuk musik
- Kuliah: Tugas Tugas, Pengambilan Informasi Musik, Generasi Musik
Rumah dan proyek
- Hw_asr melatih model pengenalan suara
- Project_avss melatih model pemisahan pidato audio-visual
- Implementasi HW_NV dari model TTS (Neural Vocoder)
Lihat template proyek kami.
Sumber daya
- Rekaman Kuliah di YouTube (dalam bahasa Rusia)
Beberapa minggu memiliki rekaman bahasa Inggris. Lihat sub-direktori yang sesuai.
Kontributor & Staf Kursus
Materi dan pengajaran kursus (dalam tahun yang berbeda) disampaikan oleh:
- Maxim Kaledin
- Petr Grinberg
- Fedorov Grigory
- Aibek Alanov
- Alexander Markovich (sebelumnya)
- Daniil Ivanov (sebelumnya)
- Ilya Lewin (sebelumnya)
- Timofey Smirnov (sebelumnya)
- Alexander Mamaev (sebelumnya)
Versi sebelumnya