Включает в себя:
Статистическая языковая модель - это разработка вероятностных моделей для прогнозирования вероятности последовательности слов. Он способен предсказать следующее слово в последовательности, учитывая контекст истории, представленный предыдущими словами.
Вероятность того, что мы хотим моделировать, может быть факторирована с помощью правила цепи следующим образом:
Где особый токен для обозначения начала предложения.
На практике мы обычно используем так называемые модели n-граммы, которые используют предположение о процессе Маркова для ограничения контекста истории. Примеры N-граммов:
Используя критерии максимального правдоподобия, эти вероятности могут быть оценены с использованием количества. Например, для модели Bigram,
Тем не менее, это может быть проблемным, если у нас есть невидимые данные, потому что количество будет 0, и, следовательно, вероятность не определена. Чтобы решить эту проблему, мы используем методы сглаживания. Существуют различные методы сглаживания, и те, которые мы использовали, называется абсолютным дисконтированием с интерполяцией .
Чтобы получить производительность языковой модели, мы рассчитываем недоумение тестового корпуса, используя обученные M-граммы:
Модель была протестирована на наборе данных Europarl (DIR data ):
Тест PP с Bigrams = 130,09
Тест ПП с триграммами = 94,82