<iframe width = "560" Height = "315" src = "https://www.youtube.com/embed/tykh7q5mdcg" title = "YouTube Video Player" FrameBorder = "0" PERTER = "Acelerómetro; Autoplay; Papboard-Write; Encrollpedpted-Media; Gyroscope; Picture-In-Picture" permitislfullscreen> </frame>
La introducción de modelos de lenguaje basados en transformadores ha llevado a avances asombrosos en el dominio del procesamiento del lenguaje natural en los últimos años. Tales modelos no solo dominan en una variedad de puntos de referencia estándar. La última generación de modelos de idiomas puede ser especializado para novelas, anteriormente invisibles tareas con pocos, prácticamente sin datos de capacitación.
En este tutorial, analizo las dos ideas clave que permiten modelos de lenguaje ultra-grande: una nueva arquitectura de red neuronal, el transformador y un proceso de capacitación no supervisado, basado en la idea del aprendizaje de transferencia. Después de discutir los conceptos teóricos detrás de los modelos lingüísticos, demuestro GPT-3 y otros modelos y proporciono consejos sobre cómo obtener acceso a esta tecnología. Finalmente, discuto nuevos casos de uso en la gestión de datos que están habilitados por modelos de idiomas, que cubren investigaciones recientes y problemas abiertos.
Las diapositivas del tutorial VLDB'22 (90 minutos) están aquí.
Las diapositivas del tutorial de BTW'23 (180 minutos) están aquí.
Las diapositivas del tutorial ICDE'24 (90 minutos) están aquí.
Utilice la siguiente cita para consultar este tutorial:
@article{Trummer2022e,
author = {Trummer, Immanuel},
doi = {10.14778/3554821.3554896},
journal = {PVLDB},
number = {12},
pages = {3770 -- 3773},
title = {From BERT to GPT-3 Codex: Harnessing the Potential of Very Large Language Models for Data Management},
volume = {15},
year = {2022}
}