@jayakumar
Обучение новой модели TR с использованием Tesseract OCR Engine 5.2 с новыми шрифтами.
Этот проект основан на tesseract ocr -5.2
Мы можем добавить новые шрифты и тренировать модель для распознавания текста на изображении или PDF с лучшей точностью.
Мы используем лучшую модель LSTM ENG в качестве базовой модели.
Пожалуйста, используйте официальный репо с Tesseract для настройки и изменения требований, используя это репо для дальнейшего обучения и тестирования.
Для загрузки страниц дайте имя шрифта в аргументе FONTLIST, а также дайте имя каталога в REAKE_DIR TRAIN/который вы создаете в пути »Tesseract-5.2.0-RC1/Train/"
sudo src/training/tesstrain.sh-fonts_dir/usr/local/share/fonts-fontlist 'digital-7 mono' 'vitali slab fat, регулярное «Падение небо, жирное жирный tessdata -save_box_tiff -maxpages 500000 -output_dir train/directory_name
Run ./autogen.sh
Запустить ./configure-enable-debug
Запустить
Запустить сделать установку
Запустить ldconfig
Запустить обучение
Запустить обучение-установку
Запустить Apt Установить Python3-PIP
Запустите cp ./fonts/*/usr/local/share/fonts/
Запустить chmod +x/ocraining/auto.old.sh
Env tessdata_prefix =/ocr/training/tessdata
Intrypoint ["/cor/training/auto.old.sh"]