Unduh dla - Unduh Kode Sumber dla

dla

Kode Sumber AI

1.0.0

Unduh

LOGO5V1

Pembelajaran mendalam untuk audio (DLA)

Bahan kuliah dan seminar untuk setiap minggu ada di ./week* folder, lihat README.md untuk bahan dan instruksi
Masalah teknis, ide, bug dalam materi kursus, ide kontribusi - tambahkan masalah
Versi kursus saat ini dilakukan pada musim gugur 2024 di Fakultas CS HSE.

Untuk versi tahun -tahun sebelumnya, lihat bagian versi sebelumnya.

Silabus

Week01 Pengantar Kursus
- Kuliah: Pengantar Kursus
- Seminar: Pelacakan Eksperimen, Hydra , Git , VS code
- Studi diri: Pengantar PyTorch
Week02 Pengantar Pemrosesan Sinyal Digital
- Kuliah: Sinyal, Transformasi Fourier, Spektrogram, Melscale, MFCC
- Seminar: DSP dalam Praktek, Pembuatan Spektrogram, IRF, Penyaringan Frekuensi
Pengenalan Pidato Week03 i
- Kuliah: Metrik, Dataset, Klasifikasi Temporal Connectionist (CTC), Model Klasik, Pencarian Balok, Model Bahasa
- Seminar: Augmentasi audio, pencarian balok
- Sesi Tanya Jawab: Diskusi Pekerjaan Rumah, Tip Pengkodean R&D
Pengenalan Pidato Week04 II
- Kuliah: LAS, RNN-T, Model Bahasa untuk RNN-T dan LAS
- Seminar: Pelatihan dan inferensi model RNN-T dan CTC hybrid
Ceramah Tamu Week05 . Pengenalan Pidato III dan Audio SSL
- Kuliah: Model yang di-swadaya untuk audio, audio llms
Pemisahan Sumber Week06 I
- Kuliah: Tinjauan Pemisahan Sumber Umum dan Denoising, Arsitektur Encoder-Decoder-Separator, Keluarga Demucs, DCCRN, FullSubnet+, BandsPlitRnn
- Seminar: Metrik
Week07 Sumber Pemisahan II
- Kuliah: Pemisahan Pidato, Pemisahan Buta dan Target, Berulang (Tasnet, DPRNN, Voicefilter) dan CNN (ConvtaSnet, Spex+)
- Seminar: Wienerfilter, Sincfilter dan Demucs; Metrik Pemrosesan Streaming dan Kinerja
Week08 Audio-Visual Learning
- Kuliah: Fusi Audio-Visual, Pemisahan Sumber, Pengenalan Ucapan, dan Model yang Di-swadaya. Wav2lip dan Sadtalker (Wajah Talking)
- T&J: Diskusi Proyek dan Slurm
- Seminar Ekstra: Buat Asisten Suara Cerdas Anda Sendiri
Week09 Text to Speech (TTS)
- Kuliah: Tacotron, DeepVoice, GST, Fastspeech, Adaspeech, Trik Perhatian
- Seminar: Ditunda
Week10 Vocoders saraf
- Kuliah: Wavenet, Parallel Wavegan, Waveglow, Melgan, Hifigan
- Seminar: Fastspeech I, TTS Pipeline: Dari Teks ke Audio
TTS berbasis difusi Week11
- Kuliah: Konsep Difusi. Vokoder difusi dan model akustik difusi.
Week12 Biometri Suara I
- Kuliah: Pendahuluan. Gema. CMS untuk deteksi bicara yang direkam dan disintesis (LCNN, Rawnet2, AASIST). GNNS
- Seminar: Asvspoof, SINC-LAYER, GNN
Week13 Biometri Suara II
- Kuliah Tamu: Kolmogorov-Arnold Networks (KANS), AASIST3, ASVSPOOF5
- Kuliah: Sistem ASV. Sistem SASV. Mengalir
Minggu14 AI untuk musik
- Kuliah: Tugas Tugas, Pengambilan Informasi Musik, Generasi Musik