
Deep Learning for Audio (DLA)
- Conférence et matériel de séminaire pour chaque semaine sont dans les dossiers
./week* , voir README.md pour les matériaux et les instructions - Tous les problèmes techniques, idées, bogues dans le matériel de cours, idées de contribution - Ajoutez un problème
- La version actuelle du cours est effectuée à l'automne 2024 à la Faculté CS de HSE.
Pour les versions des années précédentes, voir la section des versions passées.
Programme
Week01 Introduction au cours
- Conférence: Introduction au cours
- Séminaire: suivi des expériences,
Hydra , Git , VS code - Auto-apprentissage: introduction à
PyTorch
Week02 Introduction au traitement du signal numérique
- Conférence: signaux, transformée de Fourier, spectrogrammes, melscale, MFCC
- Séminaire: DSP en pratique, création de spectrogramme, IRF, filtrage de fréquence
Reconnaissance de la parole Week03 I
- Conférence: métriques, ensembles de données, classification temporelle connexe (CTC), modèles classiques, recherche de faisceau, modèles de langue
- Séminaire: augmentations audio, recherche de faisceau
- Session des questions et réponses: discussion des devoirs, conseils de codage R&D
Semaine04 Reconnaissance de la parole II
- Conférence: LAS, RNN-T, modèles de langue pour RNN-T et LAS
- Séminaire: formation et inférence Hybrid RNN-T et CTC
Week05 Conférence invitée. Reconnaissance de la parole III et SSL audio
- Conférence: Modèles auto-supervisés pour audio, LLMS audio
Week06 Séparation de source I
- Conférence: une revue de la séparation générale des sources et du débrage, des architectures d'encodeur-coder-separator, DeMUCS Family, DCCRN, Fulsubnet +, BandsPlitrnn
- Séminaire: métriques
Week07 Source Séparation II
- Conférence: séparation de la parole, séparation aveugle et cible, récurrente (tasnet, dprnn, vocalfilter) et cnn (convtasnet, spex +)
- Séminaire: WienerFilter, Sincfilter et DemUcs; Streaming Traitement et mesures de performance
Week08 Apprentissage en profondeur audiovisuelle
- Conférence: Fusion audio-visuelle, séparation des sources, reconnaissance de la parole et modèles auto-levés. Wav2lip et sadtalker (visage qui parle)
- Q&R: Discussion de projet et de slurm
- Séminaire supplémentaire: créez votre propre assistant vocal intelligent
Week09 Text à la parole (TTS)
- Conférence: Tacotron, Deepvoice, TPS, FastSpeech, Adaspeech, astuces d'attention
- Séminaire: report
Week10 Vocoders neuronaux
- Conférence: wavenet, parallèle d'onde, lueur d'onde, melgan, hifigan
- Séminaire: FastSpeech I, TTS Pipeline: du texte à l'audio
TTS basés sur la diffusion Week11
- Conférence: concept de diffusion. Des vocodeurs de diffusion et des modèles acoustiques de diffusion.
semaine12 Biométrie vocale I
- Conférence: Introduction. Réverbération. CMS pour la détection de la parole enregistrée et synthétisée (LCNN, Rawnet2, Aasist). Gnns
- Séminaire: ASVSPOOF, Sinc-couche, GNN
semaine13 Biométrie vocale II
- Conférence invitée: Kolmogorov-Arnold Networks (KANS), AASIST3, ASVSPOOF5
- Conférence: systèmes ASV. Systèmes SASV. Streaming
semaine14 AI pour la musique
- Conférence: Aperçu des tâches, récupération des informations musicales, génération de musique
Immatures et projets
- HW_ASR Formation d'un modèle de reconnaissance vocale
- Project_avss Formation d'un modèle de séparation de la parole audiovisuelle
- Implémentation HW_NV d'un modèle TTS (Neural Vocoder)
Voir notre modèle de projet.
Ressources
- Enregistrements de conférences sur YouTube (en russe)
Certaines semaines ont des enregistrements en anglais. Voir les sous-répertoires correspondants.
Contributeurs et personnel de cours
Le matériel de cours et l'enseignement (à différentes années) ont été dispensés par:
- Maxim Kaledin
- Petr Grinberg
- Fedorov
- Aibek Alanov
- Alexander Markovich (auparavant)
- Daniil Ivanov (auparavant)
- Ilya Lewin (auparavant)
- Timofey Smirnov (auparavant)
- Alexander Mamaev (auparavant)
Versions passées