@jayakumar
تدريب نموذج TR جديد باستخدام Tesseract OCR Engine 5.2 مع خطوط جديدة.
يعتمد هذا المشروع على Tesseract OCR -5.2
يمكننا إضافة خطوط جديدة وتدريب النموذج للتعرف على النص على الصورة أو PDF مع أفضل دقة.
نحن نستخدم أفضل نموذج LSTM ENG كنموذج أساسي.
يرجى استخدام Tesseract Repo الرسمي لإعداد وتغيير المتطلبات باستخدام هذا الريبو لمزيد من التدريب والاختبار.
بالنسبة لصفحات التحميل ، قم بإعطاء اسم الخط في وسيطة Fontlist وأيضًا إعطاء اسم الدليل في TROFT_DIR TRAIN/الذي يتم إنشاؤك في المسار "Tesseract-5.2.0-RC1/Train/"
sudo src/training/tesstrain.sh-fonts_dir/usr/local/share/fonts-fontlist 'digital-7 mono' 'slab slab fat ، bolding sky ، bold'-lang eng-linedata_only--langdata_dir langdata_lstm-trining_text. Tessdata --save_box_tiff -Maxpages 500000 -Train/Directory_Name
تشغيل ./autogen.sh
تشغيل
تشغيل جعل
تشغيل جعل التثبيت
تشغيل LdConfig
تشغيل جعل التدريب
تشغيل جعل التدريب
قم بتشغيل تثبيت Python3-PIP
تشغيل cp ./fonts/*/usr/local/share/fonts/
تشغيل chmod +x/contraining/auto.old.sh
Env Tessdata_prefix =/OCR/Training/Tessdata
pointpoint ["/ocr/training/auto.old.sh"]