ngramModelTrainer
1.0.0
コーパスを与えられたN-Gram言語モデルを学習します。コーパスは、単語間スペースが含まれていない1行ごとに1つの単語を持つテキストファイルでなければなりません。
学習された量は次のとおりです。
引数なしで実行してスクリプトをテストします。
python3 ngramModelTrainer
適切な入力でツールを使用する方法の詳細については、-hフラグを使用してください。
python3 ngramModelTrainer -h
fixtures/ 。
出力は4つのMATLABマトリックスとして保存されます。
特定の許容可能なユニグラムのアルファベットを定義する必要があります。デフォルトでは、36の可能な文字/数字のアルファベットを使用しています。これらは、「Alphabet」と呼ばれるPythonリストに次の順序で保持されています。
上記のアルファベットの「標準以外」バージョンが使用される場合があります。これらには、 dutta_extended :多くの余分なキャラクター(これらは特に、ジョージワシントンの手書きドキュメントセットに見られるキャラクターのエンコーディングと句読点です)。ソフィア:ポリトンギリシャのキャラクター。ダミー:3文字の限られたテストセット