
Aprendizaje profundo para audio (DLA)
- Conferencias y materiales de seminarios para cada semana están en
README.md ./week* - Cualquier problema técnico, ideas, errores en los materiales del curso, ideas de contribución: agregar un problema
- La versión actual del curso se lleva a cabo en el otoño de 2024 en la facultad de CS de HSE.
Para las versiones de años anteriores, vea la sección de versiones anteriores.
Programa de estudios
Semana01 Introducción al curso
- Conferencia: Introducción al curso
- Seminario: Seguimiento de experimentos,
Hydra , Git , VS code - Estudio de autocuración: Introducción a
PyTorch
Semana02 Introducción al procesamiento de señales digitales
- Conferencia: señales, transformación de Fourier, espectrogramas, Melscale, MFCC
- Seminario: DSP en la práctica, creación de espectrograma, IRF, filtrado de frecuencia
Semana03 Reconocimiento de voz yo
- Conferencia: Métricas, conjuntos de datos, Clasificación temporal Connectionist (CTC), modelos clásicos, búsqueda de haz, modelos de idiomas
- Seminario: aumentos de audio, búsqueda de haz
- Sesión de preguntas y respuestas: discusión de tareas, consejos de codificación de I + D
Semana04 Reconocimiento de voz II
- Conferencia: LAS, RNN-T, Modelos de idiomas para RNN-T y LAS
- Seminario: entrenamiento e inferencia de modelos Hybrid RNN-T y CTC
Semana05 Conferencia invitada. Reconocimiento de voz III y Audio SSL
- Conferencia: modelos auto-supervisados para audio, LLMS de audio
Semana06 Separación de origen I
- Conferencia: una revisión de las arquitecturas de separación general de la fuente general, codificador-decodificador-separador, Familia Demucs, DCCRN, FullSubnet+, Bandsplitrnn
- Seminario: Métricas
Semana 07 Fuente de separación II
- Conferencia: separación del habla, separación ciega y objetivo, recurrente (Tasnet, DPRNN, VoiceFilter) y CNN (Convtasnet, SPEX+)
- Seminario: Wienerfilter, Sincfilter y Femucs; Procesamiento de transmisión y métricas de rendimiento
Week08 Audiovisual de aprendizaje profundo
- Conferencia: fusión audiovisual, separación de origen, reconocimiento de voz y modelos auto-supervisados. Wav2lip y Sadtalker (cara parlante)
- Preguntas y respuestas: discusión de proyecto y shurm
- Seminario adicional: crea tu propio asistente de voz inteligente
Semana09 Texto a discurso (TTS)
- Conferencia: Tacotron, DeepVoice, GST, FastSpeech, AdaSpech, Trucos de atención
- Seminario: pospuesto
Semana10 Vocodadores neuronales
- Conferencia: Wavenet, paralelo Wavan, Glow, Melgan, Hifigan
- Seminario: FastSpeech I, TTS Pipeline: desde el texto hasta el audio
Semana11 TTS basado en difusión
- Conferencia: concepto de difusión. Vocodadores de difusión y modelos acústicos de difusión.
Semana12 Biometría de voz I
- Conferencia: Introducción. Reverberación. CMS para la detección del habla registrada y sintetizada (LCNN, Rawnet2, Aasist). Gnns
- Seminario: Asvspof, SINC-Layer, GNN
Week13 Voice Biometry II
- Conferencia invitada: Kolmogorov-Arnold Networks (KANS), AASIST3, ASVSPOF5
- Conferencia: sistemas ASV. Sistemas SASV. Transmisión
Semana14 Ai para música
- Conferencia: Descripción general de las tareas, recuperación de información musical, generación de música
Tareas y proyectos
- HW_ASR Entrenamiento de un modelo de reconocimiento de voz
- Project_AVSS Capacitación de un modelo de separación de discurso audiovisual
- HW_NV Implementación de un modelo TTS (Vocoder neural)
Vea nuestra plantilla de proyecto.
Recursos
- Grabaciones de conferencias en YouTube (en ruso)
Algunas de las semanas tienen grabaciones en inglés. Ver los subdirectorios correspondientes.
Colaboradores y personal del curso
Los materiales del curso y la enseñanza (en diferentes años) fueron entregados por:
- Maxim Kaledin
- Petr Grinberg
- Grigory Fedorov
- Aibek Alanov
- Alexander Markovich (anteriormente)
- Daniil Ivanov (anteriormente)
- Ilya Lewin (anteriormente)
- Timofey Smirnov (anteriormente)
- Alexander Mamaev (anteriormente)
Versiones pasadas