@jayakumar
Melatih Model TR Baru Menggunakan Tesseract OCR Engine 5.2 dengan font baru.
Proyek ini didasarkan pada Tesseract OCR -5.2
Kami dapat menambahkan font baru dan melatih model untuk pengenalan teks pada gambar atau PDF dengan akurasi terbaik.
Kami menggunakan model LSTM ENG terbaik saat ini sebagai model dasar.
Harap gunakan repo Tesseract resmi untuk pengaturan dan ubah persyaratan menggunakan repo ini untuk pelatihan dan pengujian lebih lanjut.
Untuk memuat halaman, berikan nama font dalam argumen fontlist dan juga berikan nama direktori di output_dir train/yang Anda buat di jalur "tesseract-5.2.0-rc1/kereta/"
sudo src/pelatihan/tesstrain.sh --fonts_dir/usr/local/share/font-fontlist 'digital-7 mono' 'vitali slab fat, regular' 'falling, tebal' ---led-trining_praining_pext .-langdata_dir langdata_lstm-linedata. tessdata ---save_box_tiff --maxpages 500000 -output_dir train/directory_name
Jalankan ./autogen.sh
Jalankan ./configure --enable-debug
Jalankan make
Jalankan Make Instal
Jalankan ldconfig
Jalankan Make Training
Jalankan membuat instalasi pelatihan
Jalankan apt install python3-pip
Jalankan cp ./fonts/*/usr/local/share/font/
Jalankan Chmod +x /ocrain/training/auto.old.sh
Env tessdata_prefix =/occr/pelatihan/tessdata
Entrypoint ["/ocraining/auto.old.sh"]