ODISE : O Pen-vocabulary Di ffusion ที่ใช้ panoptic se gmentation ใช้ประโยชน์จากการแพร่กระจายของข้อความที่ผ่านการฝึกอบรมมาก่อนและแบบจำลองการเลือกปฏิบัติเพื่อดำเนินการแบ่งส่วน panoptic แบบเปิด มันใช้ประโยชน์จากการเป็นตัวแทนแช่แข็งของทั้งสองรุ่นนี้เพื่อทำการแบ่งส่วน panoptic ของหมวดหมู่ใด ๆ ในป่า
ที่เก็บนี้เป็นการดำเนินการอย่างเป็นทางการของ Odise ที่แนะนำในบทความ:
การแบ่งส่วน panoptic แบบเปิด-vocabulary กับรูปแบบการแพร่กระจายข้อความถึงภาพ jiarui xu , sifei liu *, Arash vahdat *, Wonmin Byeon , Xiaolong Wang , Shalini de Mello CVPR 2023 ไฮไลต์ (*มีส่วนร่วมเท่ากัน)
สำหรับการสอบถามทางธุรกิจกรุณาเยี่ยมชมเว็บไซต์ของเราและส่งแบบฟอร์ม: Nvidia Research Licensing







หากคุณพบว่างานของเรามีประโยชน์ในการวิจัยของคุณโปรดอ้างอิง:
@article { xu2023odise ,
title = { {Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models} } ,
author = { Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini } ,
journal = { arXiv preprint arXiv:2303.04803 } ,
year = { 2023 }
}ติดตั้งการพึ่งพาโดยการรัน:
conda create -n odise python=3.9
conda activate odise
conda install pytorch=1.13.1 torchvision=0.14.1 pytorch-cuda=11.6 -c pytorch -c nvidia
conda install -c " nvidia/label/cuda-11.6.1 " libcusolver-dev
git clone [email protected]:NVlabs/ODISE.git
cd ODISE
pip install -e .(ไม่บังคับ) ติดตั้ง XFormers สำหรับการใช้งานหม้อแปลงที่มีประสิทธิภาพ: หนึ่งสามารถติดตั้งเวอร์ชันที่สร้างไว้ล่วงหน้าได้
pip install xformers==0.0.16
หรือสร้างจากแหล่งข้อมูลล่าสุด
# (Optional) Makes the build much faster
pip install ninja
# Set TORCH_CUDA_ARCH_LIST if running and building on different GPU types
pip install -v -U git+https://github.com/facebookresearch/xformers.git@main#egg=xformers
# (this can take dozens of minutes) เราจัดทำโมเดลที่ผ่านการฝึกอบรมมาล่วงหน้าสองแบบสำหรับ ODISE ที่ได้รับการฝึกฝนด้วยฉลากหรือคำบรรยายใต้ภาพในชุดการฝึกอบรมทั้งหมดของ Coco โมเดลที่ผ่านการฝึกอบรมมาก่อนของ Odise ขึ้นอยู่กับ Creative Commons-การระบุแหล่งที่มา-การค้า-Sharealike 4.0 International-CC BY-NC-SA 4.0 ข้อกำหนด แต่ละรุ่นมีพารามิเตอร์การฝึกอบรม 28.1m ลิงค์ดาวน์โหลดสำหรับรุ่นเหล่านี้มีอยู่ในตารางด้านล่าง เมื่อคุณเรียกใช้สคริปต์ demo/demo.py หรือการอนุมานเป็นครั้งแรกมันจะดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมล่วงหน้าของ Odise ไปยังโฟลเดอร์ท้องถิ่นของคุณ $HOME/.torch/iopath_cache/NVlabs/ODISE/releases/download/v1.0.0/
| ADE20K (A-150) | โกโก้ | ade20k-full (A-847) | บริบท Pascal 59 (PC-59) | บริบท Pascal 459 (PC-459) | Pascal VOC 21 (PAS-21) | การดาวน์โหลด | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| PQ | แผนที่ | Miou | PQ | แผนที่ | Miou | Miou | Miou | Miou | Miou | ||
| Odise (ฉลาก) | 22.6 | 14.4 | 29.9 | 55.4 | 46.0 | 65.2 | 11.1 | 57.3 | 14.5 | 84.6 | ด่าน |
| Odise (คำบรรยายภาพ) | 23.4 | 13.9 | 28.7 | 45.6 | 38.4 | 52.4 | 11.0 | 55.3 | 13.8 | 82.7 | ด่าน |
ดูการเตรียมชุดข้อมูลสำหรับ Odise
ดูการเริ่มต้นใช้งานกับ ODISE สำหรับคำแนะนำโดยละเอียดเกี่ยวกับการฝึกอบรมและการอนุมานกับ ODISE
รวมเข้ากับช่องว่าง HuggingFace? ใช้ Gradio ลองใช้การสาธิตเว็บ:
เรียกใช้การสาธิตบน Google Colab:
หมายเหตุสำคัญ : เมื่อคุณเรียกใช้สคริปต์ demo/demo.py เป็นครั้งแรกนอกเหนือจากรุ่นที่ผ่านการฝึกอบรมมาก่อนของ Odise มันจะดาวน์โหลดโมเดลที่ผ่านการฝึกอบรมมาล่วงหน้าเพื่อการแพร่กระจายที่มั่นคง v1.3 และคลิปจากแหล่งดั้งเดิมไปจนถึงไดเรกทอรีท้องถิ่นของคุณ $HOME/.torch/ และ $HOME/.cache/clip โมเดลที่ผ่านการฝึกอบรมมาก่อนสำหรับการแพร่กระจายที่มั่นคงและคลิปขึ้นอยู่กับเงื่อนไขใบอนุญาตดั้งเดิมจากการแพร่กระจายที่มั่นคงและคลิปตามลำดับ
เพื่อเรียกใช้การสาธิตของ Odise จากบรรทัดคำสั่ง:
python demo/demo.py --input demo/examples/coco.jpg --output demo/coco_pred.jpg --vocab " black pickup truck, pickup truck; blue sky, sky " เอาต์พุตจะถูกบันทึกไว้ใน demo/coco_pred.jpg สำหรับตัวเลือกรายละเอียดเพิ่มเติมสำหรับ demo/demo.py ดูการเริ่มต้นใช้งาน Odise
เพื่อเรียกใช้การสาธิต Gradio ในพื้นที่:
python demo/app.pyรหัสส่วนใหญ่ขึ้นอยู่กับ detectron2, การแพร่กระจายที่เสถียร, mask2former, openclip และ glide
ขอบคุณทุกคนสำหรับโครงการโอเพนซอร์ซที่ยอดเยี่ยม!