<iframe width = "560" height = "315" src = "https://www.youtube.com/embed/tykh7q5mdcg" title = "lecteur vidéo YouTube" frameborder = "0" allow = "accéleromètre; autoplay; allowfulScreen> </ iframe>
L'introduction de modèles linguistiques basés sur les transformateurs a conduit à des avancées étonnantes dans le domaine du traitement du langage naturel au cours des dernières années. Non seulement ces modèles dominent dans une variété de repères standard. La dernière génération de modèles linguistiques peut être spécialisée dans des tâches nouvelles et autrefois invisibles avec peu ou pratiquement aucune donnée de formation.
Dans ce tutoriel, je discute des deux idées clés permettant des modèles de langage ultra-large: une nouvelle architecture de réseau neuronal, le transformateur et un processus de formation non supervisé, basé sur l'idée de l'apprentissage du transfert. Après avoir discuté des concepts théoriques derrière les modèles de langue, je démontre le GPT-3 et d'autres modèles et je fournis des pointeurs sur la façon d'avoir accès à cette technologie. Enfin, je discute de nouveaux cas d'utilisation dans la gestion des données qui sont permis par les modèles de langue, couvrant des recherches récentes et des problèmes ouverts.
Les diapositives du tutoriel VLDB'22 (90 minutes) sont là.
Les diapositives du tutoriel BTW'23 (180 minutes) sont là.
Les diapositives du tutoriel ICDE'24 (90 minutes) sont là.
Veuillez utiliser la citation suivante pour vous référer à ce tutoriel:
@article{Trummer2022e,
author = {Trummer, Immanuel},
doi = {10.14778/3554821.3554896},
journal = {PVLDB},
number = {12},
pages = {3770 -- 3773},
title = {From BERT to GPT-3 Codex: Harnessing the Potential of Very Large Language Models for Data Management},
volume = {15},
year = {2022}
}