Apprend un modèle de langue n-gram étant donné un corpus. Le corpus doit être un fichier texte, avec un seul mot par ligne, ne contenant aucun espace inter-mots.
Les quantités apprises sont:
Testez le script en exécutant sans argument:
python3 ngramModelTrainer
Utilisez l'indicateur -H pour plus de détails sur la façon d'utiliser l'outil avec une entrée appropriée:
python3 ngramModelTrainer -h
Il y a quelques exemples d'entrées sur fixtures/ .
La sortie est enregistrée en quatre matrices MATLAB.
Un alphabet d'unigrammes spécifiques acceptables doit être défini. Par défaut, nous utilisons un alphabet de 36 lettres / chiffres possibles. Ceux-ci sont conservés dans une liste Python appelée «Alphabet», dans l'ordre suivant:
Les versions non standard de l'alphabet ci-dessus peuvent être utilisées. Ceux-ci incluent: Dutta_extended : un certain nombre de caractères supplémentaires (ce sont notamment des encodages des personnages et la ponctuation trouvés dans l'ensemble de documents manuscrits George Washington). Sophia : personnages grecs polytoniques. Dummy : un ensemble de tests limité de 3 caractères