Esta es una reimplementación de flujo tensor de Psenet: forma de detección de texto robusta con red de expansión de escala progresiva.
¡Gracias por el trabajo increíble del autor (@whai362)!
Entrenado en ICDAR 2015 (conjunto de entrenamiento) + ICDAR2017 MLT (conjunto de entrenamiento):
Código de extracto de Baiduyun: PFFD
Google Drive
Este modelo no es tan bueno como el de los artículos, es solo una referencia. Puede Finetune en él o puede hacer mucha optimización en función de este código.
| Base de datos | Precisión (%) | Recordar (%) | F-Mesasure (%) |
|---|---|---|---|
| ICDAR 2015 (Val) | 74.61 | 80.93 | 77.64 |
Si desea capacitar al modelo, debe proporcionar la ruta del conjunto de datos, en la ruta del conjunto de datos, se debe proporcionar un archivo de texto GT separado para cada imagen, y asegurarse de que el texto GT y el archivo de imagen tengan los mismos nombres .
Luego corre Train.py como:
python train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=8 --checkpoint_path=./resnet_v1_50/
--training_data_path=./data/ocr/icdar2015/
Si tiene más de una GPU, puede pasar ID de GPU a GPU_List (como - -GPU_LIST = 0,1,2,3)
Nota:
Ejecutar eval.py como:
python eval.py --test_data_path=./tmp/images/ --gpu_list=0 --checkpoint_path=./resnet_v1_50/
--output_dir=./tmp/
Luego se escribirá un archivo de texto y una imagen de resultados en la ruta de salida.






Si se encuentra primero con los problemas de verificación de problemas, o puede abrir un nuevo problema.
@RKshuai encontró un error sobre las características de concat en model.py.
Si este repositorio lo ayuda, por favor, estre a la estrella. Gracias.