YSDA Sprachverarbeitung Kurs
- Materialien für jede Woche sind in ./Week* Ordner
Kursprogramm
- Woche 1: Folien | Vortrag | Seminar
- Vorlesung: Intro in die digitale Signalverarbeitung (DSP)
- Seminar: DSP -Pipeline implementieren
- Woche 2: Folien | Vortrag | Seminar
- Vorlesung: Einführung in Sprachnn -Diskriminationsmodelle. Aufgaben der Sprachaktivitätserkennung (VAD) und Sound -Event -Erkennung (SED)
- Seminar: Train VAD -Modelle
- Hausaufgaben: Zug -SED -Modelle
- Woche 3: Folien | Vortrag | Seminar
- Vorlesung: Keyword -Erfassungs- und Sprachbiometrieaufgaben
- Seminar: Zugbiometriemodell und Einbettungsdings betrachten
- Hausaufgaben: Biometrikmodell auf eine bessere Qualität trainieren
- Woche 4: Folien | Vortrag | Seminar
- Vortrag: Spracherkennung i
- Seminar: Metriken und Augmentationen für die Spracherkennung
- Hausaufgaben: CTC -Algorithmus implementieren
- Woche 5: Folien | Vortrag
- Vorlesung: Spracherkennung II, Vorbereitung
- Hausaufgaben: Finetune WAV2VEC2
- Woche 6: Folien | Vortrag
- Vorlesung: Text-to-Speech I, Intro, Präprozessor, Metriken
- Woche 7: Folien | Vortrag
- Vorlesung: Text-zu-Sprache II, akustische Modelle
- Seminar: Tonhöhenschätzung, monotonische Ausrichtung der Suche nach Schätzung der Phonemdauer
- Hausaufgaben: Fastpitch -Modell trainieren
- Woche 8: Folien, P1 | Vortrag, p1 | Folien, p2 | Vortrag, p2 | Seminar
- Vorlesung, P1: Text-to-Speech III, Vocoding
- Vorlesung, P2: Vektorquantisierung, Codecs
- Seminar: Vektorquantizaton, Restvektorquantisierung
- Woche 9: Folien | Vortrag, p1 | Vortrag, p2
- Vortrag: Tranformatoren für TTs
- Hausaufgaben: Schreiben Sie die Schlussfolgerung für einen vorgeborenen Transformator
- Woche 10: Folien | Vortrag | Seminar
- Vortrag: Rauschreduzierung
- Seminar: Streaming STFT und ISTFT
- Hausaufgaben: Implementierung des Lärmreduktionsmodells
- Woche 11: Folien | Vortrag
- Vorlesung: Akustik -Echo -Aufhebung (AEC) und Beamforming
- Woche 12: Folien | Vortrag | Seminar
- Vortrag: ASR -Inferenz
- Seminar: Streaming ASR
- Woche 13: Folien | Vortrag
- Vorlesung: Flow -basierte TTS + Voice Conversion
Mitwirkende und Kurspersonal
Aktuell:
- Alex Rak - Vad, Spotter, Biometrie
- Mikhail Andreev - ASR
- Stepan Kargaltsev - ASR
- Evgeniia Elistratova - TTS
- Roman Kail - TTS
- Wladimir Platonov - TTS
- Evgenii Shabalin - TTs
- Ravil Khisamov - VQE
Vorherige Iteration:
- Andrey Malinin - Kursadministrator, Vorträge, Seminare, Homeworks
- Wladimir Kirichenko - Vorträge, Seminare, Heimarbeit
- Segey Dukanov - Lecures, Seminare, Homeworks