
Глубокое обучение для аудио (DLA)
- Лекции и материалы для семинаров за каждую неделю находятся в папках
./week* , см. README.md для материалов и инструкций - Любые технические проблемы, идеи, ошибки в материалах курса, идеи вклада - добавьте проблему
- Текущая версия курса проводится осенью 2024 года на факультете HSE CS.
Для предыдущих лет версии см. В разделе прошлых версий.
Учебный план
неделя 01 Введение в курс
- Лекция: Введение в курс
- Семинар: отслеживание экспериментов,
Hydra , Git , VS code - Самообучение: введение в
PyTorch
Неделя02 Введение в цифровую обработку сигналов
- Лекция: сигналы, преобразование Фурье, спектрограммы, Melscale, MFCC
- Семинар: DSP на практике, создание спектрограммы, IRF, частотная фильтрация
Неделя03 признание речи I
- Лекция: метрики, наборы данных, временная классификация соединения (CTC), классические модели, поиск луча, языковые модели
- Семинар: аудиобализация, поиск луча
- Сессия Q & A: обсуждение домашнего задания, советы по кодированию исследований и разработок
неделя 04 признание речи II
- Лекция: LAS, RNN-T, языковые модели для RNN-T и LAS
- Семинар: гибридный RNN-T и CTC модели обучение и вывод
Неделя05 гостевая лекция. Распознавание речи III и аудио SSL
- Лекция: самоотверженные модели для аудио, аудио LLMS
неделя 06
- Лекция: обзор общего разделения и денирования источников, архитектуры энкодера-декодера-сепаратора, семейство Demucs, DCCRN, Fullsubnet+, Bandsplitrnn
- Семинар: метрики
Неделя07 Разделение источника II
- Лекция: разделение речи, слепое и целевое разделение, рецидивирование (Tasnet, DPRNN, VoiceFilter) и CNN (Convtasnet, Spex+)
- Семинар: Wienerfilter, Sincfilter и Demucs; Потоковая обработка и показатели производительности
неделя 08 аудиовизуальное глубокое обучение
- Лекция: аудиовизуальное слияние, разделение источника, распознавание речи и самоотверженные модели. Wav2lip и Sadtalker (разговорное лицо)
- Вопросы и ответы: дискуссия по проекту и мультиварке
- Дополнительный семинар: создайте свой собственный интеллектуальный голосовой помощник
Неделя09 Текст на речь (TTS)
- Лекция: Такотрон, Deepvoice, GST, Fastspeech, Adaspeech, трюки внимания
- Семинар: отложено
Неделя10 Нейронные вокалисты
- Лекция: Wavenet, параллельный волновый, волновой встречный, Мелган, Хифиган
- Семинар: Fastspeech I, TTS Pipeline: от текста в аудио
Неделя11 на основе диффузии ТТ
- Лекция: концепция диффузии. Диффузионные вокадеры и диффузионные акустические модели.
неделя12 голосовая биометрия I
- Лекция: введение. Реверберация. CMS для записанного и синтезированного обнаружения речи (LCNN, Rawnet2, Aasist). GNNS
- Семинар: ASVSpoof, Sinc-Layer, GNN
неделя13 голосовая биометрия II
- Гостевая лекция: Kolmogorov-Arnold Networks (Kans), AASIST3, ASVSpoof5
- Лекция: ASV Systems. SASV Systems. Потоковая передача
неделя 14 AI для музыки
- Лекция: Обзор задач, поиск музыкальной информации, поколение музыки
Домашние работы и проекты
- HW_ASR Обучение модели распознавания речи
- Project_avss Training Модель разделителя речи аудиовизуальной речи
- HW_NV Реализация модели TTS (Neural Vocoder)
Смотрите наш шаблон проекта.
Ресурсы
- Записи лекций на YouTube (на русском языке)
Некоторые из недель имеют английские записи. См. Соответствующие подразрешители.
Сотрудники и персонал курса
Материалы курса и преподавание (в разные годы) были доставлены:
- Максим Каледин
- Петр Гринберг
- Григорий Федоров
- Айбек Аланов
- Александр Маркович (ранее)
- Данииил Иванов (ранее)
- Илья Левин (ранее)
- Тимофей Смирнов (ранее)
- Александр Мамаев (ранее)
Прошлые версии