El modelo de lenguaje es una distribución de probabilidad sobre las secuencias de palabras utilizadas para predecir la siguiente palabra basada en oraciones anteriores. Esta habilidad hace que el modelo de lenguaje sea el componente central del procesamiento moderno del lenguaje natural. Lo usamos para muchas tareas diferentes, como reconocimiento de voz, IA conversacional, recuperación de información, análisis de sentimientos o resumen de texto.
Por esta razón, muchas grandes empresas compiten para construir modelos de idiomas grandes y más grandes, como Google Bert, Facebook Roberta o OpenAI GPT3, con su gran número de parámetros. La mayoría de las veces, construyeron solo modelos de idiomas en inglés y algunos otros idiomas europeos. Otros países con bajos idiomas de recursos tienen grandes desafíos para ponerse al día con esta raza tecnológica.
Por lo tanto, el autor intenta construir algunos modelos de idiomas para Indonesia, comenzó con Ulmfit en 2018. El primer modelo de idioma solo ha sido entrenado con Wikipedia de Indonesia, que es muy pequeño en comparación con otros conjuntos de datos utilizados para entrenar el modelo de idioma inglés.
Jeremy Howard y Sebastian Ruder propusieron a Ulmfit a principios de 2018 como un método novedoso para ajustar modelos de lenguaje para el aprendizaje de transferencia inductiva. El modelo de idioma Ulmfit para Indonesian ha sido entrenado como parte del proyecto del autor mientras aprende Fastai. Logró una perplejidad de 27.67 en Wikipedia indonesia.
Ashish Vaswani et al. El transfómero propuesto en el documento de atención es todo lo que necesita. Es una arquitectura novedosa que tiene como objetivo resolver tareas de secuencia a secuencia al tiempo que maneja las dependencias de largo alcance con facilidad.
Al momento de escribir este artículo (marzo de 2021), ya hay más de 50 tipos diferentes de modelos de lenguaje basados en transformadores (según la lista de modelos en Huggingface), como Bert, GPT2, Longformer o MT5, construidos por empresas y contribuyentes individuales. El autor también construyó varios modelos de lenguaje basados en transformadores indonesios que utilizan la biblioteca de transformadores Huggingface y los alojaron en el Hub de Model de HuggingFaces.