Le but de ce script est d'implémenter trois modèles Langauge pour effectuer l'achèvement de la phrase, c'est-à-dire une phrase avec un mot manquant pour choisir le bon parmi une liste de mots candidats. La façon d'utiliser un modèle de langue pour ce problème est de considérer un mot candidat possible pour la phrase à la fois, puis de demander au modèle de langue quelle version de la phrase est la plus probable.
Les phrases à compléter avec les mots candidats sont dans ce fichier: questions.txt. Le mot à terminer est indiqué avec «tandis que la paire de mots candidats est à la fin de la ligne (par exemple, la météo / si). Le personnage ':' entre la phrase et les candidats ne fait pas partie de la Sencece. Pour appliquer un modèle linguistique sur une phrase pour un mot candidat donné, le script remplace le « mot candidat.
Les textes pour former vos modèles de langue sont dans ce fichier: News-Corpus-500K.txt (70 Mo), qui est un petit sous-ensemble de la référence de 1 milliard de mots.
Pour exécuter le script Utilisation: Python3 lm.py News-Corpus-500K.txt Questions.txt
Si vous souhaitez former votre modèle sur un autre corpus insué de News-Corpus-500K, remplacez simplement le 2ème argument par le chemin de votre propre corpus, vous souhaitez également tester votre modèle sur un ensemble de phrases différent, remplacez simplement la 3ème auteur par le chemin de vos phrases. Gardez à l'esprit d'utiliser le même modèle pour les phrases personnalisées sur lesquelles vous souhaitez tester votre modèle.