Mempelajari model bahasa N-gram yang diberi korpus. Corpus harus menjadi file teks, dengan satu kata per baris, tidak mengandung ruang antar kata.
Jumlah yang dipelajari adalah:
Uji skrip dengan berjalan tanpa argumen:
python3 ngramModelTrainer
Gunakan bendera -H untuk detail tentang cara menggunakan alat dengan input yang tepat:
python3 ngramModelTrainer -h
Ada beberapa contoh input pada fixtures/ .
Output disimpan sebagai empat matriks Matlab.
Alfabet unigram yang dapat diterima spesifik harus ditentukan. Secara default, kami menggunakan alfabet 36 kemungkinan huruf/digit. Ini diadakan dalam daftar ular python yang disebut 'alfabet', dalam urutan berikut:
Versi alfabet di atas non-standar dapat digunakan. Ini termasuk: Dutta_Extended : Sejumlah karakter tambahan (ini terutama penyandian karakter dan tanda baca yang ditemukan dalam set dokumen tulisan tangan George Washington). Sophia : Karakter Yunani Polytonik. Dummy : satu set pengujian terbatas 3 karakter