Inclui:
Um modelo de linguagem estatística é o desenvolvimento de modelos probabilísticos para prever a probabilidade de uma sequência de palavras. É capaz de prever a próxima palavra em uma sequência dada um contexto de história representado pelas palavras anteriores.
A probabilidade que queremos modelar pode ser fatorada usando a regra da cadeia da seguinte forma:
Onde está um token especial para denotar o início da frase.
Na prática, geralmente usamos o que é chamado de modelos N-Gram que usam a suposição de processo de Markov para limitar o contexto do histórico. Exemplos de n-grams são:
Usando critérios de máxima verossimilhança, essas probabilidades podem ser estimadas usando contagens. Por exemplo, para o modelo bigram,
No entanto, isso pode ser pró -mobiliário se tivermos dados invisíveis porque as contagens serão 0 e, portanto, a probabilidade é indefinida. Para resolver esse problema, usamos técnicas de suavização. Existem diferentes técnicas de suavização e a que usamos é chamada de desconto absoluto com interpolação .
Para medir o desempenho de um modelo de idioma, calculamos a perplexidade do corpus de teste usando gramas M treinados:
O modelo foi testado no conjunto de dados Europarl (DIR data ):
Teste PP com bigrams = 130,09
Teste PP com trigramas = 94,82