Incluye:
Un modelo de lenguaje estadístico es el desarrollo de modelos probabilísticos para predecir la probabilidad de una secuencia de palabras. Es capaz de predecir la siguiente palabra en una secuencia dado un contexto de historia representado por las palabras anteriores.
La probabilidad que queramos modelar se puede factorizar utilizando la regla de la cadena de la siguiente manera:
¿Dónde está una ficha especial para denotar el comienzo de la oración?
En la práctica, generalmente usamos lo que se llama modelos N-Gram que utilizan la suposición del proceso de Markov para limitar el contexto del historial. Ejemplos de N-Grams son:
Utilizando criterios de máxima probabilidad, estas probabilidades se pueden estimar utilizando recuentos. Por ejemplo, para el modelo Bigram,
Sin embargo, esto puede ser problamático si tenemos datos invisibles porque los recuentos serán 0 y, por lo tanto, la probabilidad no está definida. Para resolver este problema, utilizamos técnicas de suavizado. Existen diferentes técnicas de suavizado y la que utilizamos se llama descuento absoluto con interpolación .
Para medir el rendimiento de un modelo de lenguaje, calculamos la perplejidad del corpus de prueba utilizando M-gramos entrenados:
El modelo se probó en el conjunto de datos Europarl (DIR data ):
Pruebe PP con BigRams = 130.09
Pruebe PP con trigramas = 94.82