<iframe width = "560" Height = "315" src = "https://www.youtube.com/embed/tykh7q5mdcg" title = "youtube video player" frameBerScr ("0" permitir = "acelerômetro; Degoldlscreen> </frame>
A introdução de modelos de idiomas baseados em transformadores levou a avanços surpreendentes no domínio do processamento de linguagem natural nos últimos anos. Não apenas esses modelos dominam em uma variedade de benchmarks padrão. A última geração de modelos de idiomas pode ser especializada em tarefas novas e anteriormente invisíveis, com pouco para praticamente não há dados de treinamento.
Neste tutorial, discuto as duas idéias principais que permitem modelos de idiomas ultra-grande: uma nova arquitetura de rede neural, o transformador e um processo de treinamento não supervisionado, com base na idéia de aprendizado de transferência. Depois de discutir os conceitos teóricos por trás dos modelos de linguagem, demonstro o GPT-3 e outros modelos e forneço indicadores de como obter acesso a essa tecnologia. Por fim, discuto novos casos de uso em gerenciamento de dados ativados por modelos de idiomas, cobrindo pesquisas recentes e problemas abertos.
Os slides do tutorial VLDB'22 (90 minutos) estão aqui.
Os slides do tutorial do BTW'23 (180 minutos) estão aqui.
Os slides do tutorial do ICDE'24 (90 minutos) estão aqui.
Use a seguinte citação para consultar este tutorial:
@article{Trummer2022e,
author = {Trummer, Immanuel},
doi = {10.14778/3554821.3554896},
journal = {PVLDB},
number = {12},
pages = {3770 -- 3773},
title = {From BERT to GPT-3 Codex: Harnessing the Potential of Very Large Language Models for Data Management},
volume = {15},
year = {2022}
}