@jayakumar
การฝึกอบรมรุ่น TR ใหม่โดยใช้ Tesseract OCR Engine 5.2 พร้อมแบบอักษรใหม่
โครงการนี้ขึ้นอยู่กับ Tesseract OCR -5.2
เราสามารถเพิ่มแบบอักษรใหม่และฝึกอบรมโมเดลสำหรับการจดจำข้อความบนรูปภาพหรือ PDF ด้วยความแม่นยำที่ดีที่สุด
เราใช้โมเดล LSTM ENG ที่ดีที่สุดในปัจจุบันเป็นรุ่นพื้นฐาน
โปรดใช้ Tesseract Repo อย่างเป็นทางการสำหรับการตั้งค่าและเปลี่ยนข้อกำหนดโดยใช้ repo นี้สำหรับการฝึกอบรมและการทดสอบเพิ่มเติม
สำหรับการโหลดหน้าให้ชื่อตัวอักษรในการโต้แย้ง FontList และให้ชื่อไดเรกทอรีที่ output_dir Train/ซึ่งคุณถูกสร้างขึ้นในเส้นทาง "Tesseract-5.2.0-RC1/Train/"
sudo src/training/tesstrain.sh--fonts_dir/usr/local/share/fonts-fontlist 'digital-7 mono' 'vitali slab fat,' Falling Sky, Bold '-Lang Eng-Linedata_only-Langdata_dir Langdata_lstm TessData -SAVE_BOX_TIFF -MAXPAGES 500000 -OUTPUT_DIR TRAIN/DIRECTORY_NAME
Run ./autogen.sh
Run ./configure-enable-debug
เรียกใช้
Run Make Install
เรียกใช้ ldconfig
Run Make Training
เรียกใช้การฝึกอบรม
Run Apt Install Python3-Pip
เรียกใช้ cp ./fonts/*/usr/local/share/fonts/
เรียกใช้ chmod +x /ocr/training/auto.old.sh
env tessdata_prefix =/ocr/การฝึกอบรม/tessdata
entrypoint ["/ocr/training/auto.old.sh"]