Sentence Completion using Hidden Markov Models
1.0.0
此脚本的目的是实现三个langauge模型来执行句子完成,即给出一个句子,其中丢失了单词,从候选单词列表中选择正确的单词。为此问题使用语言模型的方法是一次考虑句子的可能候选单词,然后询问语言模型哪个句子的版本是最可能的。
与候选单词一起完成的句子在此文件中:Question.txt。要完成的单词用“”表示“ ''候选单词在线结束(例如天气/是否)。句子和候选人之间的角色':'不是Sentece的一部分。要在给定候选单词的句子上应用语言模型,该脚本用候选单词代替“ ”。
训练您的语言模型的文本在此文件中:news-corpus-500k.txt(70MB),这是10亿个单词基准的一小部分。
运行脚本使用:python3 lm.py news-corpus-500k.txt质疑.txt
如果您想在其他一些新闻corpus-500k的语料库上训练模型,只需将第二个参数替换为通往自己的语料库的路径,您也想在某些不同的句子上测试模型,只需用句子的路径替换第三章。请记住,要对要测试模型的自定义句子使用相同的模式。