เรียนรู้รูปแบบภาษา N-Gram ที่ได้รับคลังข้อมูล คลังข้อมูลควรเป็นไฟล์ข้อความโดยมีคำเดียวต่อบรรทัดไม่มีช่องว่างระหว่างคำ
ปริมาณที่เรียนรู้คือ:
ทดสอบสคริปต์โดยใช้งานโดยไม่มีการโต้แย้ง:
python3 ngramModelTrainer
ใช้ธง -H สำหรับรายละเอียดเกี่ยวกับวิธีการใช้เครื่องมือที่มีอินพุตที่เหมาะสม:
python3 ngramModelTrainer -h
มีตัวอย่างอินพุตสองสามอย่างใน fixtures/
เอาต์พุตจะถูกบันทึกเป็นเมทริกซ์ MATLAB สี่ตัว
ต้องกำหนดตัวอักษรของ unigrams ที่ยอมรับได้เฉพาะ โดยค่าเริ่มต้นเรากำลังใช้ตัวอักษร 36 ตัวอักษร/ตัวเลขที่เป็นไปได้ สิ่งเหล่านี้จัดขึ้นในรายการ Python ที่เรียกว่า 'ตัวอักษร' ตามลำดับต่อไปนี้:
อาจใช้ตัวอักษรที่ไม่ใช่มาตรฐาน 'ของตัวอักษรข้างต้น สิ่งเหล่านี้รวมถึง: Dutta_extended : อักขระพิเศษจำนวนหนึ่ง (สิ่งเหล่านี้เป็นการเข้ารหัสของตัวละครและเครื่องหมายวรรคตอนที่พบในชุดเอกสารที่เขียนด้วยลายมือ George Washington) โซเฟีย : ตัวละครกรีก polytonic Dummy : ชุดทดสอบ จำกัด 3 อักขระ