Aprende un modelo de lenguaje N-Gram dado un corpus. El corpus debe ser un archivo de texto, con una sola palabra por línea, que no contiene espacios entre palabras.
Las cantidades aprendidas son:
Pruebe el script ejecutándose sin argumento:
python3 ngramModelTrainer
Use el indicador -h para obtener detalles sobre cómo usar la herramienta con la entrada adecuada:
python3 ngramModelTrainer -h
Hay algunas entradas de ejemplo en fixtures/ .
La salida se guarda como cuatro matrices MATLAB.
Se requiere que se define un alfabeto de unigramas aceptables específicos. Por defecto, estamos utilizando un alfabeto de 36 letras/dígitos posibles. Estos se llevan a cabo en una lista de Python llamada 'Alphabet', en el siguiente orden:
Se pueden usar versiones no estándar del alfabeto anterior. Estos incluyen: DUTTA_EXTENDED : Varios caracteres adicionales (estos son notablemente codificaciones de los caracteres y la puntuación que se encuentran en el conjunto de documentos escritos a mano George Washington). Sophia : personajes griegos polytonic. Dummy : un conjunto de pruebas limitadas de 3 caracteres