Это переосмысление TensorFlow PSENET: капризное обнаружение текста с помощью сети расширения прогрессивного масштаба.
Спасибо за потрясающую работу автора (@whai362)!
обучен ICDAR 2015 (обучающий набор) + ICDAR2017 MLT (учебный набор):
Baiduyun Extract Code: PFFD
Google Drive
Эта модель не так хороша, как статья, это просто ссылка. Вы можете нанести на это, или вы можете сделать много оптимизации на основе этого кода.
| База данных | Точность (%) | Отзывать (%) | F-мера (%) |
|---|---|---|---|
| ICDAR 2015 (VAL) | 74,61 | 80.93 | 77.64 |
Если вы хотите тренировать модель, вы должны предоставить путь набора данных, в пути набора данных, для каждого изображения должен быть предоставлен отдельный текстовый файл GT и убедиться, что текст GT и файл изображения имеет одинаковые имена .
Затем запустите Train.py Like:
python train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=8 --checkpoint_path=./resnet_v1_50/
--training_data_path=./data/ocr/icdar2015/
Если у вас более одного графического процессора, вы можете передавать идентификаторы графических процессоров в GPU_List (например, -gpu_list = 0,1,2,3)
Примечание:
запустить evall.py like:
python eval.py --test_data_path=./tmp/images/ --gpu_list=0 --checkpoint_path=./resnet_v1_50/
--output_dir=./tmp/
Затем текстовый файл и изображение результата будут записаны в выходной путь.






Если вы сначала столкнетесь с какими -либо проблемами проверки, или вы можете открыть новую проблему.
@rkshuai обнаружил ошибку о функциях concat в model.py.
Если этот репозиторий поможет вам, пожалуйста, составит его. Спасибо.