Interspeech 2023 Tutorial
Interspeech 23 Resource Efficient and Cross-Modal Learning Toward Foundation Modeling Tutorial - Video
ICASSP 22 Tutorial Neural Model Reprogramming and Prompting for Speech Modeling - Video | Gleiten
ICASSP 23 Tutorial Parameter-Efficient Learning (PEL) for Speech and NLP: Adapters, Prompts, and Reprogramming - Folie
Teil 1. Überblick über ressourceneffiziente Lernen, Dr. Huck Yang
9:00
1.1. Parameter-effizientes Lernen
- Hintergrund der Frozen -Modellanpassung
- Neuraladapter, Reprogrammierung, Aufforderung und Anpassung mit niedriger Rang (LORA)
| Titel | Autoren | Code | Jahr |
|---|
| Differentiell private Adapter für eine effiziente akustische Parametermodellierung | C.-W. Ho et al. | Code | Interspeech 2023 |
| Parameter-effizientes Lernen für die Anpassung von Text-to-Speech-Akzent-Akzent | L.-J. Yang et al. | Code | Interspeech 2023 |
| Ein parametereffizienter Lernansatz zur Identifizierung des arabischen Dialekts mit vorgebildetem Allzweck-Sprachmodell | S. Radhakrishnan et al. | Code | Interspeech 2023 |
1.2. Gedächtniseffizientes Lernen
- Reduzieren Sie das GPU / TPU -Speicher während des Trainings (z. B. das Gedächtnis der Aktivierung)
- Modellserialisierung
- Effizientes Lernen für das Gerät über Feature-Reprogrammierung (CVPR 2022)
- Ladder-Side-Tuning (Neurips 2022)
1.3 Wie schätze ich, welche Schicht oder welches Modell eingestellt werden soll?
- Universelle Approximationstheorie (IEEE TIP 1993)
- Logme: Praktische Bewertung vorgebliebener Modelle für das Transferlernen (ICML 2021)
- Latente Raumausrichtung in "Reprogrammierung akustischer Modelle für die Zeitreihenklassifizierung" (ICML 2021)
| Titel | Autoren | Code | Jahr |
|---|
| Wie schätzt ich die Modellübertragbarkeit von vorgebildeten Sprachmodellen? | Z.-C. Chen et al. | Code | Interspeech 2023 |
1,4 LORA-Techniken mit niedriger Ranganpassung (LORA)
- Cross-modal-Verschmelzung
- Niedrigranganpassung (LORA) für die Modellierung von Grundlagen und die Vorausbildung
1.5 Zivildienst
- Sondersitzung in ICASSP 2024: In-Context-Lernen für Sprach- und Sprachverarbeitung
- [email protected]
Break: Hand-on-Sitzung 1 (5 min)
- So trainieren Sie Ihr Flüstern mit neuronalem Adapter und Lora
Teil 2: Vertrauenswürdige KI und Cross-Modal-Lernen im Zeitalter von Foundation-Modellen, Dr. Pin-yu Chen
11:00 to 11:45
Teil 3: Multimodales Vorbild für automatische Spracherkennung und Vision Sharing, Dr. Shalini Ghosh
11:45 to 12:20
Spotlight eingeladener Gespräch, "Aufforderung an LLM für ASR", von Dr. Chunyang Wu, Meta AI
12:20 to 12:30
QA und Plenardiskussion
12:40 to 12:45