ngramModelTrainer
1.0.0
在给定的语料库中学习N-Gram语言模型。语料库应为文本文件,每行单词一个单词,没有任何词间空间。
学习的数量是:
通过没有参数运行来测试脚本:
python3 ngramModelTrainer
使用-h标志以获取有关如何使用适当输入的工具的详细信息:
python3 ngramModelTrainer -h
fixtures/有一些示例输入。
输出保存为四个MATLAB矩阵。
需要定义一个特定可接受的摘要的字母。默认情况下,我们使用的是36个可能的字母/数字的字母。这些按以下顺序在称为“字母”的Python列表中举行:
可以使用上述字母的非标准版本。其中包括: dutta_extended :许多额外的字符(这些是乔治·华盛顿手写文档集中发现的字符和标点符号的编码)。索菲亚:多磨的希腊角色。假人:有限的3个字符的测试集