O modelo de idioma é uma distribuição de probabilidade sobre as sequências de palavras usadas para prever a próxima palavra com base em frases anteriores. Essa habilidade faz do modela o idioma o componente central do processamento moderno da linguagem natural. Nós o usamos para muitas tarefas diferentes, como reconhecimento de fala, IA de conversação, recuperação de informações, análise de sentimentos ou resumo de texto.
Por esse motivo, muitas grandes empresas estão competindo para construir modelos de idiomas grandes e maiores, como Google Bert, Facebook Roberta ou Openai GPT3, com seu grande número de parâmetros. Na maioria das vezes, eles construíram apenas modelos de idiomas em inglês e alguns outros idiomas europeus. Outros países com idiomas baixos de recursos têm grandes desafios para acompanhar essa corrida de tecnologia.
Portanto, o autor tenta construir alguns modelos de idiomas para a Indonésia, começou com o ULMFIT em 2018. O primeiro modelo de idioma foi treinado apenas com a Wikipedia indonésia, que é muito pequena em comparação com outros conjuntos de dados usados para treinar o modelo de inglês.
Jeremy Howard e Sebastian Ruder propuseram Ulmfit no início de 2018 como um novo método para modelos de idiomas de ajuste fino para o aprendizado de transferência indutiva. O modelo de idioma Ulmfit para Indonésia foi treinado como parte do projeto do autor enquanto aprende o Fastai. Alcançou uma perplexidade de 27,67 na Wikipedia da Indonésia.
Ashish Vaswani et al. O transfômero proposto na atenção do papel é tudo o que você precisa. É uma nova arquitetura que visa resolver tarefas de sequência a sequência, enquanto lida com dependências de longo alcance com facilidade.
No momento da redação deste artigo (março de 2021), já existem mais de 50 tipos diferentes de modelos de idiomas baseados em transformadores (de acordo com a lista de modelos da HuggingFace), como Bert, GPT2, Longformer ou MT5, construídos por empresas e colaboradores individuais. O autor construiu também vários modelos de idiomas baseados em transformadores indonésios usando a biblioteca Huggingface Transformers e os hospedou no hub do HuggingFaces.