Tutoriel interspeech 2023
IntereSpeech 23 Resource Efficient and Cross-Modal Learning Toward Foundation Modeling Tutorial - Vidéo
Tutoriel ICASSP 22 Neural Model Reprogramming and Prompting for Speech Modeling - Vidéo | Glisser
ICASSP 23 Tutoriel Parameter-Efficient Learning (PEL) for Speech and NLP: Adapters, Prompts, and Reprogramming - diapositive
Partie 1. Aperçu de l'apprentissage efficace des ressources, Dr Huck Yang
9:00
1.1. Apprentissage économe en paramètres
- Contexte de l'adaptation du modèle gelé
- Adaptateur neuronal, reprogrammation, invitation et adaptation de faible rang (LORA)
| Titre | Auteurs | Code | Année |
|---|
| Adaptateurs différentiellement privés pour la modélisation acoustique efficace des paramètres | C.-W. Ho et al. | code | Intere-Speech 2023 |
| Apprentissage économe en paramètres pour l'adaptation à l'accent de texte vocal | L.-J. Yang et al. | code | Intere-Speech 2023 |
| Une approche d'apprentissage économe en paramètres de l'identification du dialecte arabe avec un modèle de discours à usage général pré-formé | S. Radhakrishnan et al. | code | Intere-Speech 2023 |
1.2. Apprentissage économe en mémoire
- Réduisez à la mémoire GPU / TPU pendant la formation (par exemple, la mémoire de l'activation)
- Sérialisation du modèle
- Apprentissage efficace sur les appareils via la reprogrammation des fonctionnalités (CVPR 2022)
- Réglage côté échelle (Neirips 2022)
1.3 Comment estimer la couche ou le modèle à régler?
- Théorie universelle de l'approximation (IEEE Tip 1993)
- LOGME: Évaluation pratique des modèles pré-formés pour l'apprentissage du transfert (ICML 2021)
- Alignement de l'espace latente dans "Reprogrammer les modèles acoustiques pour la classification des séries chronologiques" (ICML 2021)
| Titre | Auteurs | Code | Année |
|---|
| Comment estimer la transférabilité du modèle des modèles de discours pré-formés? | Z.-C. Chen et al. | code | Intere-Speech 2023 |
1.4 Techniques d'adaptation avancée de faible rang (LORA)
- Fusion de modal transversal
- Adaptation de faible rang (LORA) pour la modélisation des fondations et la pré-formation
1.5 Service communautaire
- Session spéciale dans ICASSP 2024: apprentissage en contexte pour le traitement de la parole et du langage
- [email protected]
Break: Session à la main 1 (5 min)
- Comment entraîner votre chuchotement avec l'adaptateur neuronal et Lora
Partie 2: AI et apprentissage cross-modal dignes de confiance à l'ère des modèles de fondation, Dr Pin-Yu Chen
11:00 to 11:45
Partie 3: Pré-formation multimodale pour la reconnaissance automatique de la parole et le partage de vision, le Dr Shalini Ghosh
11:45 to 12:20
Spotlight invité contes
12:20 to 12:30
QA et discussion plénière
12:40 to 12:45