@Jayakumar
使用带有新字体的Tesseract OCR引擎5.2培训新的TR模型。
该项目基于Tesseract OCR -5.2
我们可以添加新字体,并以最佳准确性在图像或PDF上训练模型以识别文本识别。
我们将当前最佳LSTM ENG模型用作基本模型。
请使用官方的Tesseract仓库进行设置,并使用此存储库更改要求进行进一步的培训和测试。
为了加载页面,在fontlist参数中给出字体名称,并在output_dir train/是在“ tesseract-5.2.0-rc1/train/train/”路径中创建的目录名称。
sudo src/training/tesstrain.sh - -fonts_dir/usr/usr/local/share/fonts - frantlist'Digital-7 mono''vitali slab fat,常规的'falling Sky,Bold',bold' - lang eng engata_only-lingedata_only -langdata_data_dir langdata_langdata_lsta_lsta_lstm-------------- tessdata -save_box_tiff -maxpages 500000 -oxput_dir train/directory_name
运行./autogen.sh
运行./configure-可启动
运行
运行slotit
运行ldconfig
运行训练
运行训练安装
运行APT安装Python3-PIP
运行cp ./fonts/*/usr/local/share/fonts/
运行chmod +x/ocr/training/auto.old.sh
env tessdata_prefix =/ocr/training/tessdata
entrypoint [“/ocr/training/auto.old.sh”]