@jayakumar
Training eines neuen TR -Modells mit Tesseract OCR Engine 5.2 mit neuen Schriftarten.
Dieses Projekt basiert auf Tesseract OCR -5.2
Wir können neue Schriftarten hinzufügen und das Modell für die Texterkennung auf Bild oder PDF mit bestem Genauigkeit trainieren.
Wir verwenden das aktuelle beste LSTM -Eng -Modell als Basismodell.
Bitte verwenden Sie offizielles Tesseract Repo für die Einrichtung und ändern Sie die Anforderungen anhand dieses Repo für weitere Schulungen und Tests.
Für das Laden von Seiten geben Sie den Schriftnamen im Schriftlisten-Argument an und geben Sie den Verzeichnisnamen unter Ausgabe von Output_dir/an, in dem Sie im Pfad "Tesseract-5.2.0-Rc1/Train/" erstellt werden.
sudo src/training/tessstrain.sh--fonts_dir/usr/local/shar Share/fonts--Fontlist 'digital-7-mono' 'Vitali-Plattenfett, regulärer Himmel, Bold'-Lang Eng-Lineedata_only--Langdata_dir Langdata_Lstm-Dr. Tessdata -Save_Box_tiff --Maxpages 500000 -Output_dir Train/Directory_Name
Rennen ./autogen.sh
Lauf
Lauf machen
Ausführen machen installieren
Führen Sie LDConfig aus
Lauf machen Training
Run Make Training Installation
Führen Sie python3-pip aus und installieren Sie
Führen Sie cp ./fonts/*/usr/local/share/fonts/aus
Führen Sie Chmod +x /cr/training/auto.old.sh aus
Env tessdata_prefix =/ocr/Training/tessdata
Eintragspunkt ["/cr/training/auto.old.sh"]]