Cours de traitement de la parole YSDA
- Les matériaux pour chaque semaine sont dans les dossiers.
Programme de cours
- Semaine 1: Diapositives | Conférence | Séminaire
- Conférence: introduction au traitement du signal numérique (DSP)
- Séminaire: implémenter le pipeline DSP
- Semaine 2: Diapositives | Conférence | Séminaire
- Conférence: Introduction aux modèles discriminants de la parole. Tâches de détection d'activité vocale (VAD) et de détection d'événements sonores (SED)
- Séminaire: Modèles de train VAD
- Devoirs: trains Modèles SED
- Semaine 3: Diapositives | Conférence | Séminaire
- Conférence: Tâches de repérage des mots clés et de biométrie de la parole
- Séminaire: Train Biometrics Model et regardez les intégres
- Devoirs: entraîner le modèle de biométrie à une meilleure qualité
- Semaine 4: Diapositives | Conférence | Séminaire
- Conférence: reconnaissance de la parole I
- Séminaire: métriques et augmentations de reconnaissance vocale
- Devoirs: implémenter l'algorithme CTC
- Semaine 5: Diapositives | Conférence
- Conférence: Reconnaissance de la parole II, pré-formation
- Devoirs: finetune wav2vec2
- Semaine 6: Diapositives | Conférence
- Conférence: text-to-speech i, intro, préprocesseur, métriques
- Semaine 7: Diapositives | Conférence
- Conférence: Texte-to-dispeophe II, Modèles acoustiques
- Séminaire: Estimation de la hauteur, recherche d'alignement monotonique pour l'estimation de la durée des phonèmes
- Devoirs: Train FastPitch Modèle
- Semaine 8: Diapositives, P1 | Conférence, P1 | Diapositives, P2 | Conférence, P2 | Séminaire
- Conférence, P1: Text-to-dispeophe III, vocoding
- Conférence, P2: quantification vectorielle, codecs
- Séminaire: Quantizaton vectoriel, quantification vectorielle résiduelle
- Semaine 9: Diapositives | Conférence, P1 | Conférence, P2
- Conférence: Tranformers pour TTS
- Devoirs: rédiger l'inférence pour le transformateur pré-formé
- Semaine 10: Diapositives | Conférence | Séminaire
- Conférence: réduction du bruit
- Séminaire: streaming STFT et ISTFT
- Devoirs: implémentation du modèle de réduction du bruit
- Semaine 11: Diapositives | Conférence
- Conférence: Annulation de l'écho acoustique (AEC) et forage de faisceau
- Semaine 12: Diapositives | Conférence | Séminaire
- Conférence: inférence ASR
- Séminaire: streaming ASR
- Semaine 13: Diapositives | Conférence
- Conférence: conversion vocale TTS + flux
Contributeurs et personnel de cours
Actuel:
- Alex Rak - Vad, spotter, biométrie
- Mikhail Andreev - ASR
- Stepan Kargaltsev - ASR
- Evgeniia elistratova - tts
- Roman Kail - TTS
- Vladimir Platonov - TTS
- Evgenii shabalin - tts
- Ravil Khisamov - VQE
Itération précédente:
- Andrey Malinin - administrateur de cours, conférences, séminaires, ouvrages de maison
- Vladimir Kirichenko - Conférences, séminaires, rédacteurs
- Segey Dukanov - Lécrets, séminaires, travaux de maison