Aprende um modelo de idioma n-gramas dado um corpus. O corpus deve ser um arquivo de texto, com uma única palavra por linha, não contendo espaços entre palavras.
As quantidades aprendidas são:
Teste o script executando sem argumento:
python3 ngramModelTrainer
Use o sinalizador -h para obter detalhes sobre como usar a ferramenta com entrada adequada:
python3 ngramModelTrainer -h
Existem alguns exemplos de entradas nos fixtures/ .
A saída é salva como quatro matrizes MATLAB.
É necessário definir um alfabeto de unigramas aceitáveis específicos. Por padrão, estamos usando um alfabeto de 36 letras/dígitos possíveis. Estes são mantidos em uma lista de Python chamada 'Alphabet', na seguinte ordem:
As versões não-padrão do alfabeto acima podem ser usadas. Isso inclui: Dutta_extended : vários caracteres extras (são notavelmente codificações dos personagens e pontuação encontrados no conjunto de documentos manuscritos de George Washington). Sophia : Personagens Gregos Polonônicos. Dummy : um conjunto de testes limitado de 3 caracteres