<iframe width = "560" height = "315" src = "https://www.youtube.com/embed/tykh7q5mdcg" title = "youtube Video Player" Frameborder = "0" erlaubte = "Accelerometer; Autoplay; zulässtscreen> </iframe>
Die Einführung von transformatorbasierten Sprachmodellen hat in den letzten Jahren zu erstaunlichen Fortschritten im Bereich der natürlichen Sprachverarbeitung geführt. Solche Modelle dominieren nicht nur in einer Vielzahl von Standard -Benchmarks. Die neueste Generation von Sprachmodellen kann auf neuartige, früher unsichtbare Aufgaben mit wenig bis praktisch ohne Trainingsdaten spezialisiert sein.
In diesem Tutorial diskutiere ich die beiden wichtigsten Ideen, die ultra-große Sprachmodelle ermöglichen: eine neue Architektur für neuronale Netzwerke, den Transformator und einen unbeaufsichtigten Trainingsprozess, der auf der Idee des Transferlernens basiert. Nachdem ich die theoretischen Konzepte hinter Sprachmodellen diskutiert habe, zeige ich GPT-3 und andere Modelle und stelle Hinweise auf, wie man Zugang zu dieser Technologie erhält. Schließlich diskutiere ich neuartige Anwendungsfälle im Datenmanagement, die durch Sprachmodelle ermöglicht werden, die jüngste Forschung und offene Probleme abdecken.
Folien des VLDB'22 -Tutorials (90 Minuten) sind hier.
Die Folien des BTW'23 -Tutorials (180 Minuten) sind hier.
Die Folien des ICDE'24 -Tutorials (90 Minuten) sind hier.
Bitte verwenden Sie das folgende Zitat, um sich auf dieses Tutorial zu beziehen:
@article{Trummer2022e,
author = {Trummer, Immanuel},
doi = {10.14778/3554821.3554896},
journal = {PVLDB},
number = {12},
pages = {3770 -- 3773},
title = {From BERT to GPT-3 Codex: Harnessing the Potential of Very Large Language Models for Data Management},
volume = {15},
year = {2022}
}