Word-prédiction-ngram
Prédiction des mots suivants à l'aide du modèle probabiliste n-gram.
Divers cahiers Jupyter sont là en utilisant différents modèles de langage pour la prédiction des mots suivants.
Saisir :
Les utilisateurs entrent dans une phrase textuelle
Sortir :
Prédit un mot qui peut suivre la phrase d'entrée
Diverses techniques de lissage ont été utilisées dans différents modèles de langage ainsi que la combinaison d'interpolation et de revers dans ces différents modèles de langage.
Techniques de lissage utilisé:
1. Add 1
2. Good Turing
3. Simple Knesser Ney
4. Interpolated Knesser Ney
Comment fonctionne le code:
- Nettoyage du corpus d'entraînement (retirer les ponctuations, etc.)
- Création du modèle de langue:
i) Formation de n-grammes (Unigram, Bigram, Trigram, Quadgram)
ii) Création du dictionnaire de probabilité avec la fourniture de divers mécanismes de lissage