N Gram Language Model
1.0.0
包括:
統計語言模型是概率模型的發展,以預測一系列單詞的概率。它能夠在給定以前單詞表示的歷史上下文的序列中預測下一個單詞。
我們要建模的概率可以使用鏈條規則進行分解,如下所示:
在哪裡表示句子開始的特殊令牌。
在實踐中,我們通常使用使用Markov過程假設來限制歷史上下文的所謂的N-Gram模型。 n-gram的示例是:
使用最大似然標準,可以使用計數估算這些概率。例如,對於Bigram模型,
但是,如果我們有看不見的數據,這可能是重要的,因為計數為0,因此概率不確定。為了解決這個問題,我們使用平滑技術。有不同的平滑技術,我們使用的技術稱為插值的絕對折扣。
為了使語言模型的性能微弱,我們使用訓練有素的M-grams計算測試語料庫的困惑:
在Europarl數據集(DIR data )上測試了模型:
帶有bigrams的測試PP = 130.09
帶有Trigrams的測試PP = 94.82