Sentence Completion using Hidden Markov Models
1.0.0
このスクリプトの目標は、3つのランゲージモデルを実装して文の完了を実行することです。つまり、候補の単語のリストから正しいものを選択するために、不足している単語が不足している文が与えられました。この問題に言語モデルを使用する方法は、一度に文の可能性のある候補者の単語を考慮し、その文のどのバージョンが最も可能性の高いバージョンであるかを尋ねることです。
候補の単語と一緒に完成する文は、このファイルにあります:question.txt。完了する単語は、候補の単語のペアが行の終わりにある一方で、「天気/かどうか)で示されます。キャラクター ':'文と候補者の間では、センテセの一部ではありません。特定の候補の単語の文で言語モデルを適用するために、スクリプトは「候補の単語」に置き換えられます。
言語モデルをトレーニングするテキストは、このファイルにあります:News-Corpus-500K.TXT(70MB)は、10億語のベンチマークの小さなサブセットです。
スクリプトを実行するには:python3 lm.py news-corpus-500k.txt question.txt
News-Corpus-500Kの他のコーパスでモデルをトレーニングしたい場合は、2番目の引数を自分のコーパスへのパスに置き換えてください。また、いくつかの異なる文章でモデルをテストしたい場合は、3番目のアグラメントを文章へのパスに置き換えてください。モデルをテストしたいカスタム文に同じパターンを使用することに留意してください。