O objetivo deste script é implementar três modelos de Langauge para executar a conclusão das frases, ou seja, uma frase com uma palavra ausente para escolher a correta de uma lista de palavras candidatas. A maneira de usar um modelo de idioma para esse problema é considerar uma possível palavra candidata para a frase por vez e, em seguida, perguntar ao modelo de idioma qual versão da frase é a mais provável.
As frases a serem concluídas juntamente com as palavras do candidato estão neste arquivo: question.txt. A palavra a ser concluída é indicada com " " enquanto o par de palavras candidatas está no final da linha (por exemplo, clima/se). O personagem ':' entre a frase e os candidatos não faz parte do Sentece. Para aplicar um modelo de idioma em uma frase para uma determinada palavra candidata, o script substitui o ' ' pela palavra candidata.
Os textos para treinar seus modelos de idiomas estão neste arquivo: News-corpus-500k.txt (70 MB), que é um pequeno subconjunto do benchmark de 1 bilhão de palavras.
Para executar o uso do script: python3 lm.py news-corpus-500k.txt question.txt
Se você deseja treinar seu modelo em algum outro corpus instalado do News-Corpus-500K, basta substituir o segundo argumento pelo caminho para o seu próprio corpus, também deseja testar seu modelo em algum conjunto de frases diferentes, basta substituir o terceiro ragar pelo caminho para suas frases. Lembre -se de usar o mesmo padrão para as frases personalizadas nas quais você deseja testar seu modelo.