
Deep Learning für Audio (DLA)
- Vorlesungs- und Seminarmaterialien für jede Woche sind in
./week* Ordner, siehe README.md für Materialien und Anweisungen - Alle technischen Probleme, Ideen, Fehler in Kursmaterialien, Beitragsideen - Fügen Sie ein Problem hinzu
- Die aktuelle Version des Kurses wird im Herbst 2024 an der CS -Fakultät von HSE durchgeführt.
In den vergangenen Versionen finden Sie den Abschnitt "Pastversionen".
Lehrplan
Woche01 Einführung in den Kurs
- Vortrag: Einführung in den Kurs
- Seminar: Experimentverfolgung,
Hydra , Git , VS code - Selbststudie: Einführung in
PyTorch
Woche02 Einführung in die digitale Signalverarbeitung
- Vortrag: Signale, Fourier -Transformation, Spektrogramme, Melscale, MFCC
- Seminar: DSP in der Praxis, Spektrogrammerstellung, IRF, Frequenzfilterung
Woche03 Spracherkennung i
- Vorlesung: Metriken, Datensätze, Connectionist Temporal Classification (CTC), klassische Modelle, Strahlsuche, Sprachmodelle
- Seminar: Audio Augmentations, Strahlsuche
- Q & A -Sitzung: Hausaufgabendiskussion, F & E -Codierungs -Tipps
Woche04 Spracherkennung II
- Vortrag: LAS, RNN-T, Sprachmodelle für RNN-T und LAS
- Seminar: Hybrid-RNN-T- und CTC-Modelltraining und Inferenz
Woche05 Gastvortrag. Spracherkennung III und Audio SSL
- Vorlesung: Selbstbewertete Modelle für Audio, Audio-LLMs
Woche06 Quelltrennung i
- Vorlesung: Eine Überprüfung der allgemeinen Quellentrennung und -Denoising, Encoder-Decoder-Separator-Architekturen, Demucs Family, DCCRN, FullSubnet+, Bandsplitrnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnt
- Seminar: Metriken
Woche07 Quelltrennung II
- Vorlesung: Sprachtrennung, Blind- und Zieltrennung, wiederkehrende (Tasnet, DPRNN, VoiceFilter) und CNN (Convtasnet, Spex+)
- Seminar: Wienerfilter, Sincfilter und Demucs; Streaming -Verarbeitungs- und Leistungsmetriken
Woche08 Audio-visuelles Deep Learning
- Vorlesung: Audio-visuelle Fusion, Quellentrennung, Spracherkennung und selbstbewertete Modelle. Wav2lip und Sadtalker (redetes Gesicht)
- Fragen und Antworten: Projekt- und Slurm -Diskussion
- Extra Seminar: Erstellen Sie Ihren eigenen intelligenten Sprachassistenten
Woche09 Text zur Sprache (TTS)
- Vorlesung: Tacotron, Deepvoice, GST, Fastspeech, Adaspeech, Aufmerksamkeitstricks
- Seminar: verschoben
Woche10 Neuronale Vocoder
- Vorlesung: Wellenet, Parallelwellengegan, Wellenlow, Melgan, HiFigan
- Seminar: Fastspeech I, TTS Pipeline: vom Text zu Audio
Week11 Diffusionsbasierte TTs
- Vortrag: Diffusionskonzept. Diffusionsvokoder und akustische Diffusionsmodelle.
Woche12 Sprachbiometrie i
- Vortrag: Einführung. Nachhall. CMS für aufgezeichnete und synthetisierte Spracherkennung (LCNN, Rawnet2, aasist). Gnns
- Seminar: Asvspoof, Sinc-Layer, GNN
Woche13 Sprachbiometrie II
- Gastvortrag: Kolmogorov-Arnold-Netzwerke (KANS), Aasist3, Asvspoof5
- Vortrag: ASV -Systeme. SASV -Systeme. Streaming
Woche 14 KI für Musik
- Vorlesung: Aufgabenübersicht, Abrufen von Musikinformationen, Musikgenerierung
Heimarbeit und Projekte
- HW_ASR -Training Ein Spracherkennungsmodell
- Project_avss Training Ein audiovisuelles Sprachtrennmodell
- HW_NV -Implementierung eines TTS -Modells (neuronaler Vokoder)
Siehe unsere Projektvorlage.
Ressourcen
- Vortragsaufnahmen auf YouTube (auf Russisch)
Einige der Wochen haben englische Aufnahmen. Siehe die entsprechenden Unterverzeichnisse.
Mitwirkende und Kurspersonal
Kursmaterialien und Unterricht (in verschiedenen Jahren) wurden geliefert von:
- Maxim Kaledin
- Petr Grinberg
- Grigory Fedorov
- Aibek Alanov
- Alexander Markovich (zuvor)
- Daniil Ivanov (zuvor)
- Ilya Lewin (zuvor)
- Timofey Smirnov (zuvor)
- Alexander Mamaev (zuvor)
Frühere Versionen