@jayakumar
Entrenamiento nuevo modelo TR usando el motor Tesseract OCR 5.2 con nuevas fuentes.
Este proyecto se basa en Tesseract OCR -5.2
Podemos agregar nuevas fuentes y entrenar el modelo para el reconocimiento de texto en imagen o PDF con la mejor precisión.
Estamos utilizando el mejor modelo LSTM ENG como modelo base.
Utilice el repositorio oficial de Tesseract para la configuración y cambie los requisitos utilizando este repositorio para una mayor capacitación y pruebas.
Para las páginas de carga, le dé el nombre de fuente en el argumento de FontList y también le dé el nombre del directorio en el tren output_dir/que es creado en la ruta "Tesseract-5.2.0-rc1/trenes/"
sudo src/entrenador/testrain.sh ---diTS_DIR/usr/local/share/fonts--fontlist 'digital-7 mono' 'vitali fat, regular' 'ball sky' --lang ing --linedata_only --langdata_dir langdata_lstm --trining_text ./digits_prineded.txt.txt.txt.txt --save_box_tiff - -Maxpages 500000 --output_dir Train/Directory_Name
Ejecutar ./autogen.sh
Ejecutar ./configure --enable-debug
Ejecutar
Ejecutar la instalación
Ejecutar ldconfig
Correr Make Training
Ejecutar la instalación de entrenamiento
Ejecutar apt install python3-pip
Ejecute cp ./fonts/*/usr/local/share/fonts/
Ejecutar chmod +x /ocr/training/auto.old.sh
Env TessData_Prefix =/OCR/Training/TessData
Entrypoint ["/ocr/training/auto.old.sh"]