Lernt ein N-Gram-Sprachmodell mit einem Korpus. Der Korpus sollte eine Textdatei mit einem einzelnen Wort pro Zeile sein, das keine Zwischenwörter-Räume enthält.
Die gelehrten Mengen sind:
Testen Sie das Skript, indem Sie ohne Argument ausgeführt werden:
python3 ngramModelTrainer
Verwenden Sie das Flag -H, um Details zur Verwendung des Tools mit ordnungsgemäßer Eingabe zu verwenden:
python3 ngramModelTrainer -h
Es gibt einige Beispieleingänge für fixtures/ .
Die Ausgabe wird als vier Matlab -Matrizen gespeichert.
Ein Alphabet spezifischer akzeptabler Unigramms muss definiert werden. Standardmäßig verwenden wir ein Alphabet mit 36 möglichen Buchstaben/Ziffern. Diese finden in einer Python -Liste mit dem Namen "Alphabet" in der folgenden Reihenfolge statt:
Nicht-Standard-Versionen des obigen Alphabets können verwendet werden. Dazu gehören: Dutta_extended : Eine Reihe von zusätzlichen Zeichen (dies sind insbesondere Codierungen der Zeichen und Zeichensetzung, die im handgeschriebenen Dokumentsatz von George Washington enthalten sind). Sophia : Polytonische griechische Charaktere. Dummy : Ein begrenzter Testsatz von 3 Zeichen