แบบจำลองภาษาเป็นการกระจายความน่าจะเป็นมากกว่าลำดับคำที่ใช้ในการทำนายคำถัดไปตามประโยคก่อนหน้า ความสามารถนี้ทำให้แบบจำลองภาษาเป็นองค์ประกอบหลักของการประมวลผลภาษาธรรมชาติที่ทันสมัย เราใช้มันสำหรับงานที่แตกต่างกันมากมายเช่นการรู้จำเสียงพูดการสนทนา AI การดึงข้อมูลการวิเคราะห์ความเชื่อมั่นหรือการสรุปข้อความ
ด้วยเหตุนี้ บริษัท ขนาดใหญ่หลายแห่งจึงแข่งขันกันเพื่อสร้างรูปแบบภาษาขนาดใหญ่และใหญ่กว่าเช่น Google Bert, Facebook Roberta หรือ OpenAI GPT3 ด้วยพารามิเตอร์จำนวนมาก ส่วนใหญ่พวกเขาสร้างแบบจำลองภาษาในภาษาอังกฤษและภาษายุโรปอื่น ๆ เท่านั้น ประเทศอื่น ๆ ที่มีภาษาทรัพยากรต่ำมีความท้าทายอย่างมากที่จะติดตามการแข่งขันเทคโนโลยีนี้
ดังนั้นผู้เขียนจึงพยายามสร้างแบบจำลองภาษาสำหรับอินโดนีเซียเริ่มต้นด้วย ULMFIT ในปี 2561 รูปแบบภาษาแรกได้รับการฝึกฝนเฉพาะกับวิกิพีเดียอินโดนีเซียซึ่งมีขนาดเล็กมากเมื่อเทียบกับชุดข้อมูลอื่น ๆ ที่ใช้ในการฝึกอบรมแบบจำลองภาษาอังกฤษ
Jeremy Howard และ Sebastian Ruder เสนอ Ulmfit ในต้นปี 2561 เป็นวิธีการใหม่สำหรับแบบจำลองภาษาที่ปรับแต่งสำหรับการเรียนรู้การถ่ายโอนอุปนัย รูปแบบภาษา ULMFIT สำหรับอินโดนีเซียได้รับการฝึกฝนเป็นส่วนหนึ่งของโครงการของผู้เขียนในขณะที่เรียนรู้ Fastai มันประสบความสำเร็จอย่างน่าสะพรึงกลัว 27.67 ในอินโดนีเซียวิกิพีเดีย
Ashish Vaswani และคณะ transfomer ที่เสนอในความสนใจของกระดาษคือสิ่งที่คุณต้องการ มันเป็นสถาปัตยกรรมใหม่ที่มีจุดมุ่งหมายเพื่อแก้ไขงานตามลำดับตามลำดับในขณะที่จัดการการพึ่งพาระยะยาวได้อย่างง่ายดาย
ในช่วงเวลาของการเขียน (มีนาคม 2564) มีโมเดลภาษาที่ใช้หม้อแปลงมากกว่า 50 ประเภท (ตามรายการโมเดลที่ HuggingFace) เช่น Bert, GPT2, Longformer หรือ MT5 สร้างโดย บริษัท และผู้สนับสนุนรายบุคคล ผู้เขียนยังสร้างโมเดลภาษาที่ใช้หม้อแปลงอินโดนีเซียหลายแบบโดยใช้ห้องสมุด HuggingFace Transformers และโฮสต์ใน HuggingFaces Model Hub