Implementasi Python dari model bahasa N-gram dengan Laplace Smoothing dan Generasi Kalimat.
Beberapa fungsi NLTK digunakan ( nltk.ngrams , nltk.FreqDist ), tetapi kebanyakan semuanya diimplementasikan dengan tangan.
CATATAN: Kelas LanguageModel mengharapkan data yang sudah diberikan data yang sudah ditentukan oleh kalimat. Jika menggunakan fungsi load_data yang disertakan, file train.txt dan test.txt harus sudah diproses sedemikian rupa sehingga:
Lihat data/ Direktori untuk contoh.
Contoh output untuk model trigram yang dilatih pada data/train.txt dan diuji terhadap data/test.txt :
Loading 3-gram model...
Vocabulary size: 23505
Generating sentences...
...
<s> <s> the company said it has agreed to sell its shares in a statement </s> (0.03163)
<s> <s> he said the company also announced measures to boost its domestic economy and could be a long term debt </s> (0.01418)
<s> <s> this is a major trade bill that would be the first quarter of 1987 </s> (0.02182)
...
Model perplexity: 51.555
Angka -angka dalam tanda kurung di samping kalimat yang dihasilkan adalah probabilitas kumulatif dari kalimat -kalimat tersebut yang terjadi.
Info Penggunaan:
usage: N-gram Language Model [-h] --data DATA --n N [--laplace LAPLACE] [--num NUM]
optional arguments:
-h, --help show this help message and exit
--data DATA Location of the data directory containing train.txt and test.txt
--n N Order of N-gram model to create (i.e. 1 for unigram, 2 for bigram, etc.)
--laplace LAPLACE Lambda parameter for Laplace smoothing (default is 0.01 -- use 1 for add-1 smoothing)
--num NUM Number of sentences to generate (default 10)
Awalnya ditulis oleh Josh Loehr dan Robin Cosbey, dengan sedikit modifikasi. Terakhir diedit 8 Februari 2018.