Языковая модель представляет собой распределение вероятностей по последовательностям слов, используемых для прогнозирования следующего слова, основанного на предыдущих предложениях. Эта способность делает языковую модель основным компонентом современной обработки естественного языка. Мы используем его для множества различных задач, таких как распознавание речи, разговорная ИИ, поиск информации, анализ настроений или суммирование текста.
По этой причине многие крупные компании конкурируют за создание больших и более крупных языковых моделей, таких как Google Bert, Facebook Roberta или Openai GPT3, с его огромным количеством параметров. Большую часть времени они создавали только языковые модели на английском и некоторых других европейских языках. Другие страны с низкими языками ресурсов имеют большие проблемы, чтобы догнать эту технологическую гонку.
Поэтому автор пытается построить некоторые языковые модели для индонезийского языка, начинается с Ulmfit в 2018 году. Первозащитная модель была обучена только индонезийской Википедии, которая очень мала по сравнению с другими наборами данных, используемыми для обучения модели английского языка.
Джереми Ховард и Себастьян Рудер предложили Ulmfit в начале 2018 года в качестве нового метода для тонкой настройки языковых моделей для индуктивного обучения передачи. Языковая модель Ulmfit для индонезийца была обучена в рамках проекта автора во время изучения Fastai. Он достиг недоумения 27,67 в Индонезийской Википедии.
Ashish Vaswani et al. Предлагаемый трансфомер в статье - это все, что вам нужно. Это новая архитектура, которая направлена на решение задач последовательности к последовательности при с легкостью обработки зависимостей дальнего действия.
На момент написания (март 2021 г.) уже существует более 50 различных типов языковых моделей на основе трансформатора (согласно списку моделей в Huggingface), таких как Bert, GPT2, Longformer или MT5, построенный компаниями и отдельными участниками. Автор построил также несколько индонезийских языковых моделей, основанных на трансформаторах, используя библиотеку Transformers Transformers и размещал их в модели Huggingfaces.