
Aprendizagem profunda para áudio (DLA)
- Palestras e materiais de seminário para cada semana
README.md em ./week* - Quaisquer questões técnicas, idéias, insetos em materiais do curso, idéias de contribuição - adicione um problema
- A versão atual do curso é realizada no outono de 2024 na Faculdade de HSE da CS.
Para versões dos anos anteriores, consulte a seção Versões anteriores.
Programa de Estudos
Semana01 Introdução ao curso
- Palestra: Introdução ao Curso
- Seminário: rastreamento de experimentos,
Hydra , Git , VS code - Auto-estudo: Introdução ao
PyTorch
Semana02 Introdução ao processamento de sinal digital
- Palestra: sinais, transformada de Fourier, espectrogramas, Melscale, MFCC
- Seminário: DSP na prática, criação de espectrograma, IRF, filtragem de frequência
Semana03 Reconhecimento de fala i
- Palestra: Métricas, conjuntos de dados, Classificação Temporal Connectionista (CTC), Modelos Clássicos, Pesquisa de Viga, Modelos de Língua
- Seminário: Aumentos de áudio, pesquisa de feixe
- Sessão de perguntas e respostas: discussão de lição de casa, dicas de codificação de P&D
Semana04 Reconhecimento de fala II
- Palestra: LAS, RNN-T, modelos de idiomas para RNN-T e LAS
- Seminário: Hybrid RNN-T e Treinamento e Inferência do Modelo CTC
Semana05 Palestra convidada. Reconhecimento de fala III e Audio SSL
- Palestra: Modelos auto-supervisionados para áudio, Audio LLMS
Semana06 Separação de fonte I
- Palestra: Uma revisão da separação geral de origem e denoising, arquiteturas do codificador-decodificador-Separator, família Demucs, DCCRN, FullSubnet+, bandsplitrnn
- Seminário: Métricas
Semana07 Separação de origem II
- Palestra: Separação de fala, separação cega e alvo, recorrente (Tasnet, DPRNN, Bowfilter) e CNN (Convtasnet, Spex+)
- Seminário: Wienerfilter, Sincfilter e Demucs; Métricas de processamento e desempenho de streaming
Semana08 AUDIO-VISUAL APRENDIZAGEM
- Palestra: fusão audiovisual, separação de fontes, reconhecimento de fala e modelos auto-supervisionados. Wav2lip e sadtalker (rosto falando)
- P&R: Discussão do Projeto e Slurm
- Seminário Extra: Crie seu próprio Assistente de Voz Inteligente
Semana09 texto para fala (TTS)
- Palestra: Tacotron, DeepVoice, GST, FastSpeech, AdasPeech, Tricks de atenção
- Seminário: adiado
Semana 10 vocoders neurais
- Palestra: Wavenet, Parallel Wavegan, Waveglow, Melgan, Hifigan
- Seminário: FastSpeech I, TTS Pipeline: do texto ao áudio
Semana11 TTS baseada em difusão
- Palestra: conceito de difusão. Vocoders de difusão e modelos acústicos de difusão.
Semana12 Biometria de voz I
- Palestra: Introdução. Reverberação. CMS para detecção de fala registrada e sintetizada (LCNN, Rawnet2, AASIST). GNNS
- Seminário: asvspoof, camada de sincente, GNN
Semana13 Biometria de Voz II
- Palestra de convidado: Kolmogorov-Arnold Networks (KANS), AASIST3, ASVSPOOF5
- Palestra: sistemas ASV. Sistemas sasv. Transmissão
Semana14 Ai para música
- Palestra: Visão geral das tarefas, recuperação de informações musicais, geração de música
Trabalhos de casa e projetos
- HW_ASR Treinando um modelo de reconhecimento de fala
- Project_avss Treinando um modelo de separação de fala audiovisual
- Implementação HW_NV de um modelo TTS (vocoder neural)
Veja nosso modelo de projeto.
Recursos
- Gravações de palestras no YouTube (em russo)
Algumas das semanas têm gravações em inglês. Veja os subdiretos correspondentes.
Colaboradores e equipe do curso
Os materiais e o ensino do curso (em diferentes anos) foram entregues por:
- Maxim Kaledin
- Petr Grinberg
- Grigory Fedorov
- Aibek Alanov
- Alexander Markovich (anteriormente)
- Daniil Ivanov (anteriormente)
- Ilya Lewin (anteriormente)
- Timofey Smirnov (anteriormente)
- Alexander Mamaev (anteriormente)
Versões anteriores