Le modèle de langue est une distribution de probabilité sur les séquences de mots utilisées pour prédire le mot suivant en fonction des phrases précédentes. Cette capacité fait du modèle de langue le composant central du traitement moderne du langage naturel. Nous l'utilisons pour de nombreuses tâches différentes, telles que la reconnaissance de la parole, l'IA conversationnelle, la récupération des informations, l'analyse des sentiments ou le résumé de texte.
Pour cette raison, de nombreuses grandes entreprises sont en concurrence pour construire des modèles de langage grands et plus grands, tels que Google Bert, Facebook Roberta ou Openai GPT3, avec son nombre massif de paramètres. La plupart du temps, ils n'ont construit que des modèles de langue en anglais et dans d'autres langues européennes. D'autres pays avec des langues de ressources faibles ont de grands défis à rattraper leur retard sur cette course technologique.
Par conséquent, l'auteur essaie de construire certains modèles de langue pour l'Indonésien, a commencé avec UlmFit en 2018. Le modèle de langue première n'a été formé qu'avec le wikipedia indonésien, qui est très petit par rapport aux autres ensembles de données utilisés pour former le modèle de langue anglaise.
Jeremy Howard et Sebastian Ruder ont proposé UlmFit au début de 2018 comme une nouvelle méthode pour les modèles de langage affinés pour l'apprentissage du transfert inductif. Le modèle linguistique Ulmfit pour l'Indonésien a été formé dans le cadre du projet de l'auteur lors de l'apprentissage de Fastai. Il a atteint une perplexité de 27,67 sur Wikipedia indonésien.
Ashish Vaswani et al. Le transfomère proposé dans l'attention du papier est tout ce dont vous avez besoin. Il s'agit d'une nouvelle architecture qui vise à résoudre les tâches de séquence à séquence tout en gérant facilement les dépendances à longue portée.
Au moment de la rédaction (mars 2021), il existe déjà plus de 50 types différents de modèles de langage basés sur les transformateurs (selon la liste de modèles de HuggingFace), tels que Bert, GPT2, LongFormer ou MT5, construits par des entreprises et des contributeurs individuels. L'auteur a également construit plusieurs modèles de langage basés sur les transformateurs indonésiens utilisant la bibliothèque HuggingFace Transformers et les a hébergés dans le hub HuggingFaces Model.