นี่คือการใช้ PSENET อีกครั้งของ Tensorflow: การตรวจจับข้อความที่แข็งแกร่งด้วยรูปร่างที่มีเครือข่ายการขยายตัวของสเกลโปรเกรสซีฟ
ขอบคุณสำหรับผู้แต่ง (@whai362) ผลงานที่ยอดเยี่ยม!
ฝึกอบรมเกี่ยวกับ ICDAR 2015 (ชุดฝึกอบรม) + ICDAR2017 MLT (ชุดฝึกอบรม):
Baiduyun Extract Code: PFFD
Google Drive
โมเดลนี้ไม่ดีเท่าบทความมันเป็นเพียงการอ้างอิง คุณสามารถ finetune ได้หรือคุณสามารถเพิ่มประสิทธิภาพจำนวนมากตามรหัสนี้
| ฐานข้อมูล | ความแม่นยำ (%) | เรียกคืน (%) | F-Measure (%) |
|---|---|---|---|
| ICDAR 2015 (VAL) | 74.61 | 80.93 | 77.64 |
หากคุณต้องการฝึกอบรมโมเดลคุณควรจัดเตรียมพา ธ ชุดข้อมูลในพา ธ ชุดข้อมูลควรให้ไฟล์ข้อความ GT แยกต่างหากสำหรับแต่ละภาพและ ตรวจสอบให้แน่ใจว่าข้อความ GT และไฟล์รูปภาพมีชื่อเดียวกัน
จากนั้นเรียกใช้ Train.py Like:
python train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=8 --checkpoint_path=./resnet_v1_50/
--training_data_path=./data/ocr/icdar2015/
หากคุณมีมากกว่าหนึ่ง GPU คุณสามารถส่งผ่าน GPU ID ไปยัง GPU_LIST (เช่น -GPU_LIST = 0,1,2,3)
บันทึก:
เรียกใช้ eval.py ชอบ:
python eval.py --test_data_path=./tmp/images/ --gpu_list=0 --checkpoint_path=./resnet_v1_50/
--output_dir=./tmp/
ไฟล์ข้อความและภาพผลลัพธ์จะถูกเขียนไปยังเส้นทางเอาต์พุต






หากคุณพบปัญหาการตรวจสอบปัญหาใด ๆ ก่อนหรือคุณสามารถเปิดปัญหาใหม่
@rkshuai พบข้อผิดพลาดเกี่ยวกับคุณสมบัติ concat ใน model.py
หากที่เก็บนี้ช่วยคุณได้โปรดแสดง ขอบคุณ.