@Jayakumar
使用帶有新字體的Tesseract OCR引擎5.2培訓新的TR模型。
該項目基於Tesseract OCR -5.2
我們可以添加新字體,並以最佳準確性在圖像或PDF上訓練模型以識別文本識別。
我們將當前最佳LSTM ENG模型用作基本模型。
請使用官方的Tesseract倉庫進行設置,並使用此存儲庫更改要求進行進一步的培訓和測試。
為了加載頁面,在fontlist參數中給出字體名稱,並在output_dir train/是在“ tesseract-5.2.0-rc1/train/train/”路徑中創建的目錄名稱。
sudo src/training/tesstrain.sh - -fonts_dir/usr/usr/local/share/fonts - frantlist'Digital-7 mono''vitali slab fat,常規的'falling Sky,Bold',bold' - lang eng engata_only-lingedata_only -langdata_data_dir langdata_langdata_lsta_lsta_lstm-------------- tessdata -save_box_tiff -maxpages 500000 -oxput_dir train/directory_name
運行./autogen.sh
運行./configure-可啟動
運行
運行slotit
運行ldconfig
運行訓練
運行訓練安裝
運行APT安裝Python3-PIP
運行cp ./fonts/*/usr/local/share/fonts/
運行chmod +x/ocr/training/auto.old.sh
env tessdata_prefix =/ocr/training/tessdata
entrypoint [“/ocr/training/auto.old.sh”]