@Jayakumar
Treinando o novo modelo TR usando o Tesseract OCR Engine 5.2 com novas fontes.
Este projeto é baseado no TESSERACT OCR -5.2
Podemos adicionar novas fontes e treinar o modelo para reconhecimento de texto na imagem ou em PDF com melhor precisão.
Estamos usando o melhor modelo atual do LSTM Eng como modelo básico.
Use o repositório oficial do TESSERACT para configurar e altere os requisitos usando este repositório para treinamento e teste adicionais.
Para o carregamento, as páginas dão o nome da fonte no argumento da Fontlist e também dê o nome do diretório em OUTPUT_DIR/O que é criado no caminho "TESSERACT-5.2.0-RC1/Train/"
sudo src/treinamento/tesstrain.sh ---fonts_dir/usr/local/share/fontes--fontlist 'digital-7 mono' 'vitali gordura, céu regular' 'em ousada'--lang-linedata_only ----langdata_dir langdata_lstm-linedata_only ----langdata_dir langdata_lstm-linedata_only TessData -Save_box_tiff -MAXPAGES 500000 -OU -output_dir Train/Directory_Name
Run ./autogen.sh
Run ./configure --enable-debug
Correr make
Run Make Install
Execute LDConfig
Run Make Training
Run Make Training-Install
Run Apt Install python3-pip
Execute cp ./fonts/*/usr/local/share/fontes/
Execute chmod +x /ocr/training/auto.old.sh
Env TessData_prefix =/OCR/Treinamento/TessData
EntryPoint ["/ocr/training/auto.old.sh"]