Termasuk:
Model bahasa statistik adalah pengembangan model probabilistik untuk memprediksi probabilitas urutan kata. Ini mampu memprediksi kata berikutnya dalam urutan yang diberikan konteks sejarah yang diwakili oleh kata -kata sebelumnya.
Probabilitas yang ingin kami modelkan dapat diperkuat menggunakan aturan rantai sebagai berikut:
di mana token khusus untuk menunjukkan awal kalimat.
Dalam praktiknya, kami biasanya menggunakan apa yang disebut model N-gram yang menggunakan asumsi proses Markov untuk membatasi konteks sejarah. Contoh n-gram adalah:
Menggunakan kriteria kemungkinan maksimum, probabilitas ini dapat diperkirakan menggunakan jumlah. Misalnya, untuk model bigram,
Namun, ini bisa menjadi masalah jika kita memiliki data yang tidak terlihat karena jumlahnya akan 0 dan dengan demikian probabilitas tidak terdefinisi. Untuk mengatasi masalah ini, kami menggunakan teknik perataan. Ada teknik perataan yang berbeda dan yang kami gunakan disebut diskon absolut dengan interpolasi .
Untuk menguus kinerja model bahasa, kami menghitung kebingungan corpus uji menggunakan m-gram:
Model diuji pada dataset Europarl (DIR data ):
Tes PP dengan bigrams = 130.09
Tes PP dengan Trigram = 94.82