Curso de procesamiento del habla ysda
- Los materiales para cada semana están en carpetas ./week*
Programa de cursos
- Semana 1: diapositivas | Conferencia | Seminario
- Conferencia: Introducción al procesamiento de señales digitales (DSP)
- Seminario: Implementar la tubería DSP
- Semana 2: diapositivas | Conferencia | Seminario
- Conferencia: Introducción al habla y los modelos discriminativos. Tareas de detección de actividad de voz (VAD) y detección de eventos de sonido (SED)
- Seminario: modelos de trenes VAD
- Tarea: Train Models Sed
- Semana 3: diapositivas | Conferencia | Seminario
- Conferencia: manchas de palabras clave y tareas de biometría del habla
- Seminario: modelo de biometría de trenes y ver incrustaciones
- Tarea: Entrena el modelo de biometría para una mejor calidad
- Semana 4: diapositivas | Conferencia | Seminario
- Conferencia: Reconocimiento de voz yo
- Seminario: métricas y aumentos para el reconocimiento de voz
- Tarea: implementar el algoritmo CTC
- Semana 5: diapositivas | Conferencia
- Conferencia: Reconocimiento de voz II, preventiva
- Tarea: Finetune WAV2VEC2
- Semana 6: diapositivas | Conferencia
- Conferencia: texto a voz I, introducción, preprocesador, métricas
- Semana 7: Diapositivas | Conferencia
- Conferencia: texto a voz II, modelos acústicos
- Seminario: estimación de tono, búsqueda de alineación monotónica de la estimación de duración del fonema
- Tarea: Traine FastPitch Model
- Semana 8: diapositivas, P1 | Conferencia, P1 | Diapositivas, P2 | Conferencia, P2 | Seminario
- Conferencia, P1: texto a voz III, vocoding
- Conferencia, P2: cuantización vectorial, códecs
- Seminario: cuantizatón de vectores, cuantización del vector residual
- Semana 9: diapositivas | Conferencia, P1 | Conferencia, P2
- Conferencia: Tranformers para TTS
- Tarea: Escribir inferencia para el transformador previamente capacitado
- Semana 10: diapositivas | Conferencia | Seminario
- Conferencia: reducción de ruido
- Seminario: Streaming Stft e Istft
- Tarea: implementación del modelo de reducción de ruido
- Semana 11: diapositivas | Conferencia
- Conferencia: cancelación de eco acústico (AEC) y formación de haz
- Semana 12: diapositivas | Conferencia | Seminario
- Conferencia: Inferencia ASR
- Seminario: transmisión ASR
- Semana 13: diapositivas | Conferencia
- Conferencia: Tts + Conversión de voz basada en el flujo
Colaboradores y personal del curso
Actual:
- Alex Rak - Vad, Spotter, Biometría
- Mikhail Andreev - Asr
- Stepan Kargaltsev - ASR
- Evgeniia Elistratova - TTS
- Roman Kail - TTS
- Vladimir Platonov - TTS
- Evgenii Shabalin - TTS
- Ravil Khisamov - Vqe
Iteración anterior:
- Andrey Malinin - Administrador del curso, conferencias, seminarios, tareas
- Vladimir Kirichenko - Conferencias, seminarios, tareas
- Segey Dukanov - Lechuras, seminarios, tareas