Tujuan dari skrip ini adalah untuk mengimplementasikan tiga model Langauge untuk melakukan penyelesaian kalimat, yaitu memberikan kalimat dengan kata yang hilang untuk memilih yang benar dari daftar kata kandidat. Cara menggunakan model bahasa untuk masalah ini adalah dengan mempertimbangkan kata kandidat yang mungkin untuk kalimat pada satu waktu dan kemudian bertanya kepada model bahasa versi kalimat mana yang paling mungkin.
Kalimat yang akan diselesaikan bersama dengan kata -kata kandidat ada dalam file ini: pertanyaan.txt. Kata yang harus diselesaikan dilambangkan dengan ' ' sementara sepasang kata kandidat ada di akhir garis (misalnya cuaca/apakah). Karakter ':' Antara kalimat dan kandidat bukan bagian dari Sentece. Untuk menerapkan model bahasa pada kalimat untuk kata kandidat yang diberikan, skrip menggantikan ' ' dengan kata kandidat.
Teks untuk melatih model bahasa Anda ada di file ini: News-corpus-500k.txt (70MB), yang merupakan bagian kecil dari tolok ukur 1 miliar kata.
Untuk menjalankan skrip, gunakan: python3 lm.py news-corpus-500k.txt pertanyaan.txt
Jika Anda ingin melatih model Anda pada beberapa corpus lain dari News-Corpus-500K, ganti saja argumen ke-2 dengan jalur ke corpus Anda sendiri, juga, Anda ingin menguji model Anda pada beberapa set kalimat yang berbeda, cukup ganti cukup ke-3 dengan jalur ke kalimat Anda. Perlu diingat untuk menggunakan pola yang sama untuk kalimat khusus yang ingin Anda uji model Anda.