Il s'agit d'une réimplémentation TensorFlow de PSENET: Forme de détection de texte robuste avec un réseau d'expansion à l'échelle progressive.
Merci pour le travail génial de l'auteur (@ whai362)!
Formé sur l'ICDAR 2015 (ensemble de formation) + ICDAR2017 MLT (ensemble de formation):
Code d'extrait de Baiduyun: PFFD
Google Drive
Ce modèle n'est pas aussi bon que les articles, c'est juste une référence. Vous pouvez vous-même entertune ou vous pouvez faire beaucoup d'optimisation en fonction de ce code.
| Base de données | Précision (%) | Rappel (%) | F-Mesure (%) |
|---|---|---|---|
| ICDAR 2015 (VAL) | 74.61 | 80.93 | 77,64 |
Si vous souhaitez former le modèle, vous devez fournir le chemin du jeu de données, dans le chemin de jeu de données, un fichier de texte GT distinct doit être fourni pour chaque image et assurez-vous que le texte et le fichier image GT ont les mêmes noms .
Ensuite, exécutez Train.py comme:
python train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=8 --checkpoint_path=./resnet_v1_50/
--training_data_path=./data/ocr/icdar2015/
Si vous avez plus d'un GPU, vous pouvez transmettre les ID GPU à gpu_list (comme --gpu_list = 0,1,2,3)
Note:
Exécutez eval.py comme:
python eval.py --test_data_path=./tmp/images/ --gpu_list=0 --checkpoint_path=./resnet_v1_50/
--output_dir=./tmp/
Un fichier texte et une image de résultat seront ensuite écrits sur le chemin de sortie.






Si vous rencontrez d'abord des problèmes de vérification des problèmes, ou si vous pouvez ouvrir un nouveau problème.
@rkshuai a trouvé un bug sur les fonctionnalités concat dans Model.py.
Si ce référentiel vous aide, veuillez le jouer. Merci.