N Gram Language Model
1.0.0
含まれる:
統計言語モデルは、単語のシーケンスの確率を予測する確率モデルの開発です。前述の単語で表される履歴コンテキストを考慮して、シーケンスで次の単語を予測することができます。
次のように、チェーンルールを使用してモデル化したい確率を考慮することができます。
ここで、文の開始を示す特別なトークンはどこにありますか。
実際には、通常、マルコフプロセスの仮定を使用して履歴コンテキストを制限するN-GRAMモデルと呼ばれるものを使用します。 n-gramsの例は次のとおりです。
最尤基準を使用して、これらの確率はカウントを使用して推定できます。たとえば、BigRamモデルの場合、
ただし、カウントが0になるため、確率が未定義になるため、目に見えないデータがある場合、これは証明される可能性があります。この問題を解決するために、スムージングテクニックを使用します。さまざまなスムージングテクニックがあり、使用した手法は補間との絶対割引と呼ばれます。
言語モデルのパフォーマンスを採用するために、訓練されたMグラムを使用してテストコーパスの困惑を計算します。
モデルはEuroparlデータセット(DIR data )でテストされました。
BigRamsでPPをテスト= 130.09
TrigramsでPPをテスト= 94.82