Sentence Completion using Hidden Markov Models
1.0.0
此腳本的目的是實現三個langauge模型來執行句子完成,即給出一個句子,其中丟失了單詞,從候選單詞列表中選擇正確的單詞。為此問題使用語言模型的方法是一次考慮句子的可能候選單詞,然後詢問語言模型哪個句子的版本是最可能的。
與候選單詞一起完成的句子在此文件中:Question.txt。要完成的單詞用“”表示“ ''候選單詞在線結束(例如天氣/是否)。句子和候選人之間的角色':'不是Sentece的一部分。要在給定候選單詞的句子上應用語言模型,該腳本用候選單詞代替“ ”。
訓練您的語言模型的文本在此文件中:news-corpus-500k.txt(70MB),這是10億個單詞基準的一小部分。
運行腳本使用:python3 lm.py news-corpus-500k.txt質疑.txt
如果您想在其他一些新聞corpus-500k的語料庫上訓練模型,只需將第二個參數替換為通往自己的語料庫的路徑,您也想在某些不同的句子上測試模型,只需用句子的路徑替換第三章。請記住,要對要測試模型的自定義句子使用相同的模式。