ดาวน์โหลด yolact ลค์ - ดาวน์โหลดรหัสแหล่งที่ yolact

y ou o nly l ook a t c oefficien t s

    ██╗   ██╗ ██████╗ ██╗      █████╗  ██████╗████████╗
    ╚██╗ ██╔╝██╔═══██╗██║     ██╔══██╗██╔════╝╚══██╔══╝
     ╚████╔╝ ██║   ██║██║     ███████║██║        ██║   
      ╚██╔╝  ██║   ██║██║     ██╔══██║██║        ██║   
       ██║   ╚██████╔╝███████╗██║  ██║╚██████╗   ██║   
       ╚═╝    ╚═════╝ ╚══════╝╚═╝  ╚═╝ ╚═════╝   ╚═╝

แบบจำลองที่เรียบง่ายและสมบูรณ์แบบสำหรับการแบ่งกลุ่มอินสแตนซ์แบบเรียลไทม์ นี่คือรหัสสำหรับเอกสารของเรา:

Yolact: การแบ่งส่วนอินสแตนซ์แบบเรียลไทม์
Yolact ++: การแบ่งกลุ่มอินสแตนซ์แบบเรียลไทม์ที่ดีขึ้น

Yolact ++ (v1.2) เปิดตัว! (Changelog)

โมเดล Resnet50 ของ Yolact ++ ทำงานที่ 33.5 fps บน Titan XP และบรรลุแผนที่ 34.1 บน test-dev ของ Coco (ตรวจสอบกระดาษวารสารของเราที่นี่)

ในการใช้ Yolact ++ ตรวจสอบให้แน่ใจว่าคุณรวบรวมรหัส DCNV2 (ดูการติดตั้ง)

สำหรับการสาธิตแบบเรียลไทม์ลองดูวิดีโอ ICCV ของเรา:

ตัวอย่างบางส่วนจากโมเดลฐานโยลค์ของเรา (33.5 fps บนแผนที่ Titan XP และ 29.8 บน test-dev ของ Coco):

ตัวอย่าง 0

ตัวอย่างที่ 1

ตัวอย่างที่ 2

การติดตั้ง

โคลนที่เก็บนี้และป้อน:
```
git clone https://github.com/dbolya/yolact.git
cd yolact
```
ตั้งค่าสภาพแวดล้อมโดยใช้วิธีหนึ่งต่อไปนี้:
- ใช้ Anaconda
  - เรียกใช้ conda env create -f environment.yml
- ด้วยตนเองด้วย PIP
  - ตั้งค่าสภาพแวดล้อม Python3 (เช่นโดยใช้ virtenv)
  - ติดตั้ง Pytorch 1.0.1 (หรือสูงกว่า) และ Torchvision
  - ติดตั้งแพ็คเกจอื่น ๆ :
```
 # Cython needs to be installed before pycocotools
pip install cython
pip install opencv-python pillow pycocotools matplotlib 
```
หากคุณต้องการฝึกโยลค์ให้ดาวน์โหลดชุดข้อมูล Coco และคำอธิบายประกอบ 2014/2017 โปรดทราบว่าสคริปต์นี้จะใช้เวลาสักครู่และทิ้งไฟล์ 21GB ลงใน ./data/coco coco
```
sh data/scripts/COCO.sh
```
หากคุณต้องการประเมิน Yolact บน test-dev ดาวน์โหลด test-dev ด้วยสคริปต์นี้
```
sh data/scripts/COCO_test.sh
```
หากคุณต้องการใช้ Yolact ++ ให้รวบรวมเลเยอร์ convolutional ที่เปลี่ยนรูปได้ (จาก DCNV2) ตรวจสอบให้แน่ใจว่าคุณมีชุดเครื่องมือ CUDA ล่าสุดที่ติดตั้งจากเว็บไซต์ของ Nvidia
```
 cd external/DCNv2
python setup.py build develop
```

การประเมิน

นี่คือโมเดลโยลค์ของเรา (วางจำหน่ายเมื่อวันที่ 5 เมษายน 2019) พร้อมกับ FPS ของพวกเขาใน Titan XP และแผนที่บน test-dev :

ขนาดภาพ	กระดูกสันหลัง	FPS	แผนที่	น้ำหนัก
550	resnet50-fpn	42.5	28.2	yolact_resnet50_54_800000.pth	กระจกเงา
550	Darknet53-FPN	40.0	28.7	yolact_darknet53_54_800000.pth	กระจกเงา
550	resnet101-fpn	33.5	29.8	yolact_base_54_800000.pth	กระจกเงา
700	resnet101-fpn	23.6	31.2	yolact_im700_54_800000.pth	กระจกเงา

Yolact ++ รุ่น (เปิดตัวเมื่อวันที่ 16 ธันวาคม 2019):

ขนาดภาพ	กระดูกสันหลัง	FPS	แผนที่	น้ำหนัก
550	resnet50-fpn	33.5	34.1	yolact_plus_resnet50_54_800000.pth	กระจกเงา
550	resnet101-fpn	27.3	34.6	yolact_plus_base_54_800000.pth	กระจกเงา

ในการประเมินโมเดลให้ใส่ไฟล์น้ำหนักที่สอดคล้องกันในไดเรกทอรี ./weights และเรียกใช้หนึ่งในคำสั่งต่อไปนี้ ชื่อของแต่ละการกำหนดค่าคือทุกอย่างก่อนที่ตัวเลขในชื่อไฟล์ (เช่น yolact_base สำหรับ yolact_base_54_800000.pth )

ผลลัพธ์เชิงปริมาณเกี่ยวกับ Coco

 # Quantitatively evaluate a trained model on the entire validation set. Make sure you have COCO downloaded as above.
# This should get 29.92 validation mask mAP last time I checked.
python eval.py --trained_model=weights/yolact_base_54_800000.pth

# Output a COCOEval json to submit to the website or to use the run_coco_eval.py script.
# This command will create './results/bbox_detections.json' and './results/mask_detections.json' for detection and instance segmentation respectively.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --output_coco_json

# You can run COCOEval on the files created in the previous command. The performance should match my implementation in eval.py.
python run_coco_eval.py

# To output a coco json file for test-dev, make sure you have test-dev downloaded from above and go
python eval.py --trained_model=weights/yolact_base_54_800000.pth --output_coco_json --dataset=coco2017_testdev_dataset

ผลลัพธ์เชิงคุณภาพเกี่ยวกับ Coco

 # Display qualitative results on COCO. From here on I'll use a confidence threshold of 0.15.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --display

การเปรียบเทียบกับ Coco

 # Run just the raw model on the first 1k images of the validation set
python eval.py --trained_model=weights/yolact_base_54_800000.pth --benchmark --max_images=1000

ภาพ

 # Display qualitative results on the specified image.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --image=my_image.png

# Process an image and save it to another file.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --image=input_image.png:output_image.png

# Process a whole folder of images.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --images=path/to/input/folder:path/to/output/folder

วิดีโอ

 # Display a video in real-time. "--video_multiframe" will process that many frames at once for improved performance.
# If you want, use "--display_fps" to draw the FPS directly on the frame.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --video_multiframe=4 --video=my_video.mp4

# Display a webcam feed in real-time. If you have multiple webcams pass the index of the webcam you want instead of 0.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --video_multiframe=4 --video=0

# Process a video and save it to another file. This uses the same pipeline as the ones above now, so it's fast!
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --video_multiframe=4 --video=input_video.mp4:output_video.mp4

อย่างที่คุณสามารถบอกได้ว่า eval.py สามารถทำสิ่งต่างๆได้มากมาย เรียกใช้คำสั่ง --help เพื่อดูทุกสิ่งที่ทำได้

python eval.py --help

การฝึกอบรม

โดยค่าเริ่มต้นเราฝึก Coco ตรวจสอบให้แน่ใจว่าได้ดาวน์โหลดชุดข้อมูลทั้งหมดโดยใช้คำสั่งด้านบน

ในการฝึกอบรมให้คว้าโมเดล Imagenet-Pretrained แล้ววางไว้ใน ./weights weights
- สำหรับ RESNET101 ให้ดาวน์โหลด resnet101_reducedfc.pth จากที่นี่
- สำหรับ Resnet50 ดาวน์โหลด resnet50-19c8e357.pth จากที่นี่
- สำหรับ DarkNet53 ให้ดาวน์โหลด darknet53.pth จากที่นี่
เรียกใช้หนึ่งในคำสั่งการฝึกอบรมด้านล่าง
- โปรดทราบว่าคุณสามารถกด Ctrl+C ในขณะที่การฝึกอบรมและจะบันทึกไฟล์ *_interrupt.pth ที่การวนซ้ำปัจจุบัน
- น้ำหนักทั้งหมดจะถูกบันทึกไว้ในไดเรกทอรี ./weights โดยค่าเริ่มต้นด้วยชื่อไฟล์ <config>_<epoch>_<iter>.pth

 # Trains using the base config with a batch size of 8 (the default).
python train.py --config=yolact_base_config

# Trains yolact_base_config with a batch_size of 5. For the 550px models, 1 batch takes up around 1.5 gigs of VRAM, so specify accordingly.
python train.py --config=yolact_base_config --batch_size=5

# Resume training yolact_base with a specific weight file and start from the iteration specified in the weight file's name.
python train.py --config=yolact_base_config --resume=weights/yolact_base_10_32100.pth --start_iter=-1

# Use the help option to see a description of all available command line arguments
python train.py --help

การสนับสนุนหลาย GPU

ตอนนี้โยลค์รองรับ GPU หลายตัวได้อย่างราบรื่นในระหว่างการฝึกอบรม:

ก่อนที่จะเรียกใช้สคริปต์ใด ๆ ให้เรียกใช้: export CUDA_VISIBLE_DEVICES=[gpus]
- ที่ที่คุณควรแทนที่ [GPU] ด้วยรายการแยกเครื่องหมายจุลภาคของดัชนีของแต่ละ GPU ที่คุณต้องการใช้ (เช่น 0,1,2,3)
- คุณควรทำสิ่งนี้หากใช้ 1 GPU
- คุณสามารถตรวจสอบดัชนี GPU ของคุณด้วย nvidia-smi
จากนั้นเพียงแค่ตั้งค่าขนาดแบทช์เป็น 8*num_gpus ด้วยคำสั่งการฝึกอบรมด้านบน สคริปต์การฝึกอบรมจะขยายพารามิเตอร์ไฮเปอร์พารามิเตอร์เป็นค่าที่เหมาะสมโดยอัตโนมัติ
- หากคุณมีหน่วยความจำที่จะสำรองคุณสามารถเพิ่มขนาดแบทช์ต่อไป แต่ให้เป็นจำนวน GPU ที่คุณใช้อยู่
- หากคุณต้องการจัดสรรรูปภาพต่อ GPU เฉพาะสำหรับ GPU ที่แตกต่างกันคุณสามารถใช้ --batch_alloc=[alloc] โดยที่ [alloc] เป็นรายการ comma seprated ที่มีจำนวนภาพในแต่ละ GPU สิ่งนี้จะต้องรวมเป็น batch_size

การตัดไม้

ตอนนี้โยลค์บันทึกข้อมูลการฝึกอบรมและการตรวจสอบโดยค่าเริ่มต้น คุณสามารถปิดการใช้งานสิ่งนี้ด้วย --no_log คำแนะนำเกี่ยวกับวิธีการแสดงภาพบันทึกเหล่านี้กำลังจะมาเร็ว ๆ นี้ แต่ตอนนี้คุณสามารถดูที่ LogVizualizer ใน utils/logger.py เพื่อขอความช่วยเหลือ

Pascal SBD

นอกจากนี้เรายังรวมถึงการกำหนดค่าสำหรับการฝึกอบรมเกี่ยวกับคำอธิบายประกอบ Pascal SBD (สำหรับการทดลองอย่างรวดเร็วหรือเปรียบเทียบกับวิธีอื่น ๆ ) ในการฝึกอบรม Pascal SBD ให้ดำเนินการตามขั้นตอนต่อไปนี้:

ดาวน์โหลดชุดข้อมูลจากที่นี่ มันเป็นลิงค์แรกในส่วน "ภาพรวม" ด้านบน (และไฟล์เรียกว่า benchmark.tgz )
แยกชุดข้อมูลไว้ที่ไหนสักแห่ง ในชุดข้อมูลควรมีโฟลเดอร์ที่เรียกว่า dataset/img สร้างไดเรกทอรี ./data/sbd SBD ( . ที่รูตของโยลค์) และคัดลอก dataset/img ไปที่ ./data/sbd/img sbd/img
ดาวน์โหลดคำอธิบายประกอบสไตล์ Coco จากที่นี่
แยกคำอธิบายประกอบลงใน ./data/sbd/ SBD/
ตอนนี้คุณสามารถฝึกอบรมโดยใช้ --config=yolact_resnet50_pascal_config ตรวจสอบการกำหนดค่านั้นเพื่อดูวิธีขยายไปยังรุ่นอื่น ๆ

ฉันจะทำให้ทุกอย่างเป็นไปโดยอัตโนมัติด้วยสคริปต์เร็ว ๆ นี้ไม่ต้องกังวล นอกจากนี้หากคุณต้องการสคริปต์ที่ฉันใช้ในการแปลงคำอธิบายประกอบฉันใส่ไว้ใน ./scripts/convert_sbd.py แต่คุณจะต้องตรวจสอบว่ามันทำงานอย่างไรเพื่อให้สามารถใช้งานได้เพราะฉันจำไม่ได้ในตอนนี้

หากคุณต้องการตรวจสอบผลลัพธ์ของเราคุณสามารถดาวน์โหลดน้ำหนัก yolact_resnet50_pascal_config ของเราได้จากที่นี่ รุ่นนี้ควรได้รับ 72.3 MASK AP_50 และ 56.2 MASK AP_70 โปรดทราบว่า "AL ทั้งหมด" AP นั้นไม่เหมือนกับ "Vol" AP ที่รายงานในเอกสารอื่น ๆ สำหรับ Pascal (พวกเขาใช้ค่าเฉลี่ยของเกณฑ์จาก 0.1 - 0.9 โดยเพิ่มขึ้น 0.1 แทนสิ่งที่ Coco ใช้)

ชุดข้อมูลที่กำหนดเอง

นอกจากนี้คุณยังสามารถฝึกอบรมในชุดข้อมูลของคุณเองได้โดยทำตามขั้นตอนเหล่านี้:

สร้างไฟล์บันทึกคำอธิบายประกอบวัตถุ JSON สำหรับชุดข้อมูล Coco สำหรับชุดข้อมูลของคุณ ข้อกำหนดสำหรับสิ่งนี้สามารถพบได้ที่นี่ โปรดทราบว่าเราไม่ได้ใช้บางฟิลด์ดังนั้นอาจถูกละเว้นต่อไปนี้:
- info
- liscense
- ภายใต้ image : license, flickr_url, coco_url, date_captured
- categories (เราใช้รูปแบบของเราเองสำหรับหมวดหมู่ดูด้านล่าง)
สร้างคำจำกัดความสำหรับชุดข้อมูลของคุณภายใต้ dataset_base ใน data/config.py (ดูความคิดเห็นใน dataset_base สำหรับคำอธิบายของแต่ละฟิลด์):

 my_custom_dataset = dataset_base . copy ({
    'name' : 'My Dataset' ,

    'train_images' : 'path_to_training_images' ,
    'train_info' :   'path_to_training_annotation' ,

    'valid_images' : 'path_to_validation_images' ,
    'valid_info' :   'path_to_validation_annotation' ,

    'has_gt' : True ,
    'class_names' : ( 'my_class_id_1' , 'my_class_id_2' , 'my_class_id_3' , ...)
})

สองสิ่งที่ควรทราบ:
- ID คลาสในไฟล์คำอธิบายประกอบควรเริ่มต้นที่ 1 และเพิ่มตามลำดับตามลำดับของ class_names หากนี่ไม่ใช่กรณีของไฟล์คำอธิบายประกอบของคุณ (เช่นใน Coco) ให้ดูที่ Field label_map ใน dataset_base
- หากคุณไม่ต้องการสร้างการแยกการตรวจสอบความถูกต้องให้ใช้พา ธ รูปภาพเดียวกันและไฟล์คำอธิบายประกอบเพื่อการตรวจสอบความถูกต้อง โดยค่าเริ่มต้น (ดู python train.py --help ), train.py จะทำแผนที่การตรวจสอบความถูกต้องของเอาท์พุทสำหรับภาพ 5,000 ภาพแรกในชุดข้อมูลทุก 2 ยุค
ในที่สุดใน yolact_base_config ในไฟล์เดียวกันเปลี่ยนค่าสำหรับ 'dataset' เป็น 'my_custom_dataset' หรืออะไรก็ตามที่คุณตั้งชื่อวัตถุ config ด้านบน จากนั้นคุณสามารถใช้คำสั่งการฝึกอบรมใด ๆ ในส่วนก่อนหน้า

การสร้างชุดข้อมูลที่กำหนดเองตั้งแต่เริ่มต้น

ดูโพสต์ที่ดีนี้โดย @amit12690 สำหรับเคล็ดลับเกี่ยวกับวิธีการใส่คำอธิบายประกอบชุดข้อมูลที่กำหนดเองและเตรียมความพร้อมสำหรับใช้กับโยลค์

การอ้างอิง

หากคุณใช้โยลแล็คหรือฐานรหัสนี้ในงานของคุณโปรดอ้างอิง

 @inproceedings{yolact-iccv2019,
  author    = {Daniel Bolya and Chong Zhou and Fanyi Xiao and Yong Jae Lee},
  title     = {YOLACT: {Real-time} Instance Segmentation},
  booktitle = {ICCV},
  year      = {2019},
}

สำหรับ Yolact ++ โปรดอ้างอิง

 @article{yolact-plus-tpami2020,
  author  = {Daniel Bolya and Chong Zhou and Fanyi Xiao and Yong Jae Lee},
  journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence}, 
  title   = {YOLACT++: Better Real-time Instance Segmentation}, 
  year    = {2020},
}