@jayakumar
Tesseract OCR Engine 5.2를 사용하여 새로운 TR 모델 교육 새로운 글꼴.
이 프로젝트는 Tesseract OCR -5.2를 기반으로합니다
새로운 글꼴을 추가하고 이미지 또는 PDF에서 텍스트 인식을 위해 모델을 교육 할 수 있습니다.
우리는 현재 최고의 LSTM ENG 모델을 기본 모델로 사용하고 있습니다.
설정을 위해 공식 TesserAct Repo를 사용하고 추가 교육 및 테스트를 위해이 Repo를 사용하여 요구 사항을 변경하십시오.
로드하는 경우 글꼴 이름을 FontList 인수로 제공하고 output_dir Train/에서 디렉토리 이름을 제공합니다.
sudo src/training/tesstrain.sh ---fonts_dir/usr/local/share/fonts-fontlist 'digital-7 mono' 'vitali 슬래브 지방, 정기적 인 스카이, 굵은'-langedata_only ---langdata_dir langdata_lstm --training_text ./digits_printed. Tessdata ---save_box_tiff --maxpages 500000- output_dir train/directory_name
실행 ./autogen.sh
./configure --enable-debug
실행
실행 설치
ldconfig를 실행하십시오
훈련을 실행하십시오
실행 훈련을 실행하십시오
APT를 실행 Python3-Pip을 설치하십시오
CP ./FONTS/*/USR/LOCAL/SHARE/FONTS RUN
chmod +x /ocr/training/auto.old.sh를 실행하십시오
Env Tessdata_prefix =/ocr/training/tessdata
EntryPoint [ "/ocr/training/auto.old.sh"]