يشمل:
نموذج اللغة الإحصائي هو تطوير النماذج الاحتمالية للتنبؤ باحتمال حدوث سلسلة من الكلمات. إنه قادر على التنبؤ بالكلمة التالية في تسلسل بالنظر إلى سياق التاريخ يمثله الكلمات السابقة.
يمكن عاملة احتمال أن نريد النموذج باستخدام قاعدة السلسلة على النحو التالي:
أين هو رمز خاص للدلالة على بداية الجملة.
في الممارسة العملية ، عادة ما نستخدم ما يسمى نماذج N-Gram التي تستخدم افتراض عملية Markov للحد من سياق التاريخ. أمثلة على n-grams هي:
باستخدام أقصى معايير الاحتمالية ، يمكن تقدير هذه الاحتمالات باستخدام التهم. على سبيل المثال ، لنموذج Bigram ،
ومع ذلك ، يمكن أن يكون هذا problamatic إذا كان لدينا بيانات غير مرئية لأن التهم ستكون 0 وبالتالي فإن الاحتمال غير محدد. لحل هذه المشكلة ، نستخدم تقنيات التنعيم. هناك تقنيات تجانس مختلفة والتقدم الذي استخدمناه يسمى الخصم المطلق مع الاستيفاء .
لتخفيف أداء نموذج اللغة ، نقوم بحساب حيرة مجموعة الاختبار باستخدام m-grams المدربة:
تم اختبار النموذج على مجموعة بيانات Europarl (DIR data ):
اختبار pp مع bigrams = 130.09
اختبار pp مع trigrams = 94.82