NGRAM PRESCIÇÃO DE PALAVRAS
Próxima previsão de palavras usando o modelo probabilístico N-Gram.
Vários notebooks Jupyter estão lá usando diferentes modelos de idiomas para a próxima previsão de palavras.
Entrada :
Os usuários entram em uma frase de texto
Saída :
Prevê uma palavra que pode seguir a frase de entrada
Várias técnicas de suavização têm sido usadas em diferentes modelos de idiomas, juntamente com a combinação de interpolação e retomada nesses diferentes modelos de linguagem.
Técnicas de suavização usadas:
1. Add 1
2. Good Turing
3. Simple Knesser Ney
4. Interpolated Knesser Ney
Como funciona o código:
- Limpeza do corpus de treinamento (removendo pontuações etc.)
- Criação do Modelo de Língua:
i) Formação de N-Grams (Unigram, Bigram, TriGram, QuadGram)
ii) Criação de dicionário de probabilidade com o fornecimento de vários mecanismos de suavização