รวมถึง:
แบบจำลองภาษาทางสถิติคือการพัฒนาแบบจำลองความน่าจะเป็นเพื่อทำนายความน่าจะเป็นของลำดับของคำ มันสามารถทำนายคำต่อไปในลำดับที่ได้รับบริบทประวัติศาสตร์ที่แสดงโดยคำก่อนหน้านี้
ความน่าจะเป็นที่เราต้องการสร้างแบบจำลองสามารถแยกชิ้นส่วนได้โดยใช้กฎโซ่ดังนี้:
โทเค็นพิเศษเพื่อแสดงถึงจุดเริ่มต้นของประโยคอยู่ที่ไหน
ในทางปฏิบัติเรามักจะใช้สิ่งที่เรียกว่าโมเดล N-Gram ที่ใช้สมมติฐานกระบวนการมาร์คอฟเพื่อ จำกัด บริบทประวัติศาสตร์ ตัวอย่างของ n-grams คือ:
การใช้เกณฑ์ความน่าจะเป็นสูงสุดความน่าจะเป็นเหล่านี้สามารถประเมินได้โดยใช้การนับ ตัวอย่างเช่นสำหรับรุ่น Bigram
อย่างไรก็ตามนี่อาจเป็น problamatic หากเรามีข้อมูลที่มองไม่เห็นเนื่องจากการนับจะเป็น 0 และทำให้ความน่าจะเป็นไม่ได้กำหนด เพื่อแก้ปัญหานี้เราใช้เทคนิคการปรับให้เรียบ มีเทคนิคการปรับให้เรียบที่แตกต่างกันและเทคนิคที่เราใช้เรียกว่า การลดค่าสัมบูรณ์กับการแก้ไข
ในการ meausre ประสิทธิภาพของแบบจำลองภาษาเราคำนวณความงุนงงของคลังการทดสอบโดยใช้ M-Grams ที่ผ่านการฝึกอบรม:
แบบจำลองได้รับการทดสอบในชุดข้อมูล Europarl (DIR data ):
ทดสอบ PP ด้วย bigrams = 130.09
ทดสอบ PP ด้วย trigrams = 94.82