يتعلم نموذج لغة n-gram أعطى مجموعة. يجب أن يكون الجسم ملفًا نصيًا ، بكلمة واحدة لكل سطر ، لا تحتوي على مسافات بين الكلمات.
الكميات المستفادة هي:
اختبر البرنامج النصي عن طريق الجري بدون حجة:
python3 ngramModelTrainer
استخدم علامة -H للحصول على تفاصيل حول كيفية استخدام الأداة مع الإدخال المناسب:
python3 ngramModelTrainer -h
هناك بعض الأمثلة على المدخلات على fixtures/ .
يتم حفظ الإخراج كأربعة مصفوفات MATLAB.
يلزم تحديد أبجدية من unigrams مقبولة محددة. بشكل افتراضي ، نستخدم أبجديًا من 36 حرفًا/أرقامًا ممكنة. يتم عقدها في قائمة Python تسمى "Alphabet" ، بالترتيب التالي:
يمكن استخدام إصدارات غير standard من الأبجدية أعلاه. وتشمل هذه: dutta_extended : عدد من الأحرف الإضافية (هذه هي ترميزات بشكل ملحوظ للشخصيات وعلامات الترقيم الموجودة في مجموعة المستندات المكتوبة بخط اليد جورج واشنطن). صوفيا : الشخصيات اليونانية polytonic. دمية : مجموعة اختبار محدودة من 3 أحرف