N Gram Language Model
1.0.0
包括:
统计语言模型是概率模型的发展,以预测一系列单词的概率。它能够在给定以前单词表示的历史上下文的序列中预测下一个单词。
我们要建模的概率可以使用链条规则进行分解,如下所示:
在哪里表示句子开始的特殊令牌。
在实践中,我们通常使用使用Markov过程假设来限制历史上下文的所谓的N-Gram模型。 n-gram的示例是:
使用最大似然标准,可以使用计数估算这些概率。例如,对于Bigram模型,
但是,如果我们有看不见的数据,这可能是重要的,因为计数为0,因此概率不确定。为了解决这个问题,我们使用平滑技术。有不同的平滑技术,我们使用的技术称为插值的绝对折扣。
为了使语言模型的性能微弱,我们使用训练有素的M-grams计算测试语料库的困惑:
在Europarl数据集(DIR data )上测试了模型:
带有bigrams的测试PP = 130.09
带有Trigrams的测试PP = 94.82