ngramModelTrainer
1.0.0
在給定的語料庫中學習N-Gram語言模型。語料庫應為文本文件,每行單詞一個單詞,沒有任何詞間空間。
學習的數量是:
通過沒有參數運行來測試腳本:
python3 ngramModelTrainer
使用-h標誌以獲取有關如何使用適當輸入的工具的詳細信息:
python3 ngramModelTrainer -h
fixtures/有一些示例輸入。
輸出保存為四個MATLAB矩陣。
需要定義一個特定可接受的摘要的字母。默認情況下,我們使用的是36個可能的字母/數字的字母。這些按以下順序在稱為“字母”的Python列表中舉行:
可以使用上述字母的非標準版本。其中包括: dutta_extended :許多額外的字符(這些是喬治·華盛頓手寫文檔集中發現的字符和標點符號的編碼)。索菲亞:多磨的希臘角色。假人:有限的3個字符的測試集