نموذج اللغة هو توزيع احتمال على تسلسل الكلمات المستخدمة للتنبؤ بالكلمة التالية بناءً على الجمل السابقة. هذه القدرة تجعل نموذج اللغة المكون الأساسي لمعالجة اللغة الطبيعية الحديثة. نستخدمه في العديد من المهام المختلفة ، مثل التعرف على الكلام ، الذكاء الاصطناعي للمحادثة ، استرجاع المعلومات ، تحليل المشاعر ، أو تلخيص النص.
لهذا السبب ، تتنافس العديد من الشركات الكبرى على بناء نماذج لغوية كبيرة وأكبر ، مثل Google Bert أو Facebook Roberta أو Openai GPT3 ، مع عدد كبير من المعلمات. معظم الوقت ، قاموا ببناء نماذج لغة فقط باللغة الإنجليزية وبعض اللغات الأوروبية الأخرى. تواجه دول أخرى ذات لغات موارد منخفضة تحديات كبيرة للحاق بسباق التكنولوجيا هذا.
لذلك يحاول المؤلف بناء بعض نماذج اللغة للإندونيسي ، الذي بدأ بـ UlmFit في عام 2018. تم تدريب نموذج اللغة الأول فقط مع ويكيبيديا الإندونيسية ، وهو صغير جدًا مقارنة بمجموعات البيانات الأخرى المستخدمة لتدريب نموذج اللغة الإنجليزية.
اقترح جيريمي هوارد وسيباستيان رودر Ulmfit في أوائل عام 2018 كوسيلة جديدة لنماذج لغة ضبطها لتعلم النقل الاستقرائي. تم تدريب نموذج اللغة Ulmfit للإندونيسي كجزء من مشروع المؤلف أثناء تعلم Fastai. حقق حيرة من 27.67 على ويكيبيديا الإندونيسية.
Ashish Vaswani et al. Transfomer المقترح في الاهتمام الورقي هو كل ما تحتاجه. إنها بنية جديدة تهدف إلى حل مهام التسلسل إلى التسلسل مع التعامل مع التبعيات بعيدة المدى بسهولة.
في وقت كتابة هذا التقرير (مارس 2021) ، يوجد بالفعل أكثر من 50 نوعًا مختلفًا من نماذج اللغة المستندة إلى المحولات (وفقًا لقائمة النماذج في Huggingface) ، مثل Bert أو GPT2 أو Longformer أو MT5 ، التي تم بناؤها من قبل الشركات والمساهمين الفرديين. قام المؤلف أيضًا ببناء العديد من نماذج اللغة الإندونيسية المستندة إلى المحولات باستخدام مكتبة Huggingface Transformers واستضافها في مركز Huggingfaces Model.