@jayakumar
Formation du nouveau modèle TR à l'aide de Tesseract OCR Engine 5.2 avec de nouvelles polices.
Ce projet est basé sur Tesseract OCR -5.2
Nous pouvons ajouter de nouvelles polices et former le modèle de reconnaissance de texte sur l'image ou le PDF avec la meilleure précision.
Nous utilisons le modèle LSTM ENG actuel comme modèle de base.
Veuillez utiliser le dépôt officiel de Tesseract pour la configuration et modifier les exigences en utilisant ce référentiel pour une formation et des tests supplémentaires.
Pour le chargement des pages, donnez le nom de la police dans l'argument de Fontlist et donnez également le nom du répertoire à Output_dir Train / qui est-ce que vous êtes créé dans le chemin "Tesseract-5.2.0-rc1 / train /"
Sudo Src / Training / Tesstrain.sh --fonts_dir / usr / local / share / fonts --fontlist 'Digital-7 mono' 'Vitali SlA de SlA Tessdata --Save_box_tiff --maxpages 500000 --output_dir Train / Directory_name
Courir ./autogen.sh
Courir ./configure --enable-debug
Courir
Exécuter Make Installer
Exécuter ldconfig
Faire fonctionner la formation
Faire fonctionner l'installation d'entraînement
Exécutez apt installer python3-Pip
Exécutez cp ./fonts/* / usr / local / share / fonts /
Exécutez Chmod + x /ocr/training/auto.old.sh
Env TessData_prefix = / OCR / Training / TessData
Entrée ["/ocr/training/auto.old.sh"]