Das Ziel dieses Skripts ist es, drei Langauge -Modelle zu implementieren, um die Satzabschluss durchzuführen, dh einen Satz mit einem fehlenden Wort zur Auswahl der richtigen aus einer Liste von Kandidatenwörtern. Die Möglichkeit, ein Sprachmodell für dieses Problem zu verwenden, besteht darin, ein mögliches Kandidatenwort für den Satz gleichzeitig zu berücksichtigen und dann das Sprachmodell zu fragen, welche Version des Satzes die wahrscheinlichste ist.
Die Sätze, die zusammen mit den Kandidatenwörtern abgeschlossen werden sollen, befinden sich in dieser Datei: Fragen.txt. Das zu vervollständige Wort wird mit ' ' bezeichnet, während das Paar Kandidatenwörter am Ende der Linie ist (z. B. Wetter/ob). Der Charakter ':' Zwischen dem Satz und den Kandidaten ist nicht Teil des Satence. Um ein Sprachmodell auf einen Satz für ein bestimmtes Kandidatenwort anzuwenden, ersetzt das Skript das ' ' durch das Kandidatenwort.
Die Texte, um Ihre Sprachmodelle zu trainieren, befinden sich in dieser Datei: News-Corpus-500K.TXT (70 MB), eine kleine Teilmenge des 1-Milliarden-Wort-Benchmarks.
Um das Skript auszuführen: Python3 lm.py News-Corpus-500K.txt Fragen.txt
Wenn Sie Ihr Modell auf einem anderen Korpus von News-Corpus-500K trainieren möchten, ersetzen Sie einfach das 2. Argument mit Pfad zu Ihrem eigenen Corpus, auch wenn Sie Ihr Modell auf verschiedenen Sätzen testen möchten, ersetzen Sie einfach die 3. Ergänzung durch den Pfad zu Ihren Sätzen. Denken Sie daran, dasselbe Muster für die benutzerdefinierten Sätze zu verwenden, auf die Sie Ihr Modell testen möchten.