Цель этого сценария состоит в том, чтобы внедрить три модели Langauge для выполнения завершения предложения, т.е. дал предложение с недостающим словом, чтобы выбрать правильный из списка слов кандидатов. Способ использования языковой модели для этой проблемы состоит в том, чтобы рассмотреть возможное слово кандидата для предложения за раз, а затем спрашивать языковую модель, какая версия предложения является наиболее вероятной.
Предложения, которые должны быть завершены вместе со словами кандидатов, находятся в этом файле: Вопрос.txt. Слово, которое должно быть завершено, обозначено « », в то время как пара слов -кандидатов находится в конце строки (например, погода/будь то). Персонаж »:« Между предложением и кандидатами не является частью «Страж». Чтобы применить языковую модель на предложении для данного слова кандидата, сценарий заменяет « » на слово кандидата.
Тексты для обучения ваших языковых моделей находятся в этом файле: News-Corpus-500K.txt (70 МБ), который является небольшой подмножеством теста 1 миллиарда слов.
Для запуска использования скрипта: Python3 Lm.py News-Corpus-500K.txt Вопросы.txt
Если вы хотите обучить свою модель на какой-то другой корпус, включенном в новости CORPUS-500K, просто замените 2-й аргумент на путь к своему собственному корпусу, также вы хотите проверить свою модель на некотором наборе предложений, просто замените 3-й ход на путь к своим предложениям. Имейте в виду, чтобы использовать тот же шаблон для пользовательских предложений, которые вы хотите проверить свою модель.