언어 모델은 이전 문장을 기반으로 다음 단어를 예측하는 데 사용되는 단어 시퀀스에 대한 확률 분포입니다. 이 능력은 언어 모델을 현대 자연 언어 처리의 핵심 구성 요소로 만듭니다. 우리는 음성 인식, 대화 AI, 정보 검색, 감정 분석 또는 텍스트 요약과 같은 다양한 작업에 사용합니다.
이러한 이유로 많은 대기업들이 Google Bert, Facebook Roberta 또는 OpenAI GPT3과 같은 크고 큰 언어 모델을 수많은 매개 변수로 구축하기 위해 경쟁하고 있습니다. 대부분의 경우, 그들은 영어와 다른 유럽 언어로 언어 모델 만 구축했습니다. 자원 언어가 낮은 다른 국가에서는이 기술 경쟁을 따라 잡기 위해 큰 어려움이 있습니다.
따라서 저자는 2018 년 ULMFIT로 시작한 인도네시아어의 언어 모델을 구축하려고 시도합니다. 첫 번째 언어 모델은 인도네시아 Wikipedia로만 교육을 받았으며, 이는 영어 모델을 훈련시키는 데 사용되는 다른 데이터 세트에 비해 매우 작습니다.
Jeremy Howard와 Sebastian Ruder는 2018 년 초 Ulmfit을 유도 전송 학습을위한 미세 조정 언어 모델을위한 새로운 방법으로 제안했습니다. 인도네시아어를위한 언어 모델 Ulmfit은 Fastai를 배우면서 저자의 프로젝트의 일환으로 교육을 받았습니다. 인도네시아 위키 백과에서 27.67 의 당혹감을 달성했습니다.
Ashish Vaswani et al. 종이에 대한 제안 된 트랜스포머만이 필요한 전부입니다. 장거리 종속성을 쉽게 처리하면서 시퀀스-시퀀스 작업을 해결하는 것을 목표로하는 새로운 아키텍처입니다.
글을 쓰는 시점 (2021 년 3 월)에는 이미 회사 및 개인 기여자가 구축 한 Bert, GPT2, Longformer 또는 MT5와 같은 50 가지가 넘는 변압기 기반 언어 모델 (Huggingface의 모델 목록에 따라)이 이미 있습니다. 저자는 Huggingface Transformers 라이브러리를 사용하여 여러 인도네시아 변압기 기반 언어 모델을 구축하여 Huggingfaces Model Hub에서 호스팅했습니다.