Predicción de palabras-ngram
Predicción de la siguiente palabra utilizando el modelo probabilístico N-gram.
Varios cuadernos Jupyter están allí utilizando diferentes modelos de lenguaje para la siguiente predicción de palabras.
Aporte :
Los usuarios ingresan a una oración de texto
Producción :
Predice una palabra que puede seguir la oración de entrada
Se han utilizado varias técnicas de suavizado en diferentes modelos de lenguaje junto con la combinación de interpolación y retroceso en estos diferentes modelos de idiomas.
Técnicas de suavizado utilizadas:
1. Add 1
2. Good Turing
3. Simple Knesser Ney
4. Interpolated Knesser Ney
Cómo funciona el código:
- Limpieza del corpus de entrenamiento (eliminación de puntuaciones, etc.)
- Creación del modelo de idioma:
i) Formación de n-grams (unigram, bigram, trigram, quadgram)
ii) Creación del diccionario de probabilidad con provisión de varios mecanismos de suavizado