ODISE : O Pen-Vokabular -di -ffusionsbasierte panoptische Seelentierung nutzt die vorgebrachte Text-Image-Diffusions- und diskriminative Modelle, um eine panoptische Segmentierung von offener Vokabular durchzuführen. Es nutzt die gefrorene Darstellung dieser beiden Modelle, um eine panoptische Segmentierung einer Kategorie in freier Wildbahn durchzuführen.
Dieses Repository ist die offizielle Umsetzung von ODISE, die in der Arbeit eingeführt wurden:
Open-Vocabular-Panoptik-Segmentierung mit Text-zu-Image-Diffusionsmodellen Jiarui Xu , Sifei Liu *, Arash Vahdat *, Wonmin Byeon , Xiaolong Wang , Shalini de Mello CVPR 2023 Highlight. (*Gleicher Beitrag)
Für geschäftliche Anfragen besuchen Sie bitte unsere Website und senden Sie das Formular: NVIDIA Research Lizenzierung.







Wenn Sie unsere Arbeit in Ihrer Forschung nützlich finden, zitieren Sie bitte:
@article { xu2023odise ,
title = { {Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models} } ,
author = { Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini } ,
journal = { arXiv preprint arXiv:2303.04803 } ,
year = { 2023 }
}Installieren Sie Abhängigkeiten durch Ausführen:
conda create -n odise python=3.9
conda activate odise
conda install pytorch=1.13.1 torchvision=0.14.1 pytorch-cuda=11.6 -c pytorch -c nvidia
conda install -c " nvidia/label/cuda-11.6.1 " libcusolver-dev
git clone [email protected]:NVlabs/ODISE.git
cd ODISE
pip install -e .(Optional) Installieren Sie Xformers für eine effiziente Transformatorimplementierung: Man kann entweder die vorgefertigte Version installieren
pip install xformers==0.0.16
oder aus der neuesten Quelle erstellen
# (Optional) Makes the build much faster
pip install ninja
# Set TORCH_CUDA_ARCH_LIST if running and building on different GPU types
pip install -v -U git+https://github.com/facebookresearch/xformers.git@main#egg=xformers
# (this can take dozens of minutes) Wir bieten zwei vorgebreitete Modelle für ODISE, die mit Etikett oder Beschriftungsüberwachung im gesamten Trainingsset von Coco trainiert wurden. Vorausgebildete Modelle von Odise unterliegen den Creative Commons-Attribution-Noncommercial-sharealike 4.0 International-CC BY-NC-SA 4.0-Lizenzbedingungen. Jedes Modell enthält 28,1 m trainierbare Parameter. Die Download -Links für diese Modelle finden Sie in der folgenden Tabelle. Wenn Sie zum ersten Mal das Skript für demo/demo.py oder Inferenz ausführen, wird auch automatisch ODISes vorgebildetes Modell in Ihren lokalen Ordner $HOME/.torch/iopath_cache/NVlabs/ODISE/releases/download/v1.0.0/ heruntergeladen.
| ADE20K (A-150) | Coco | Ade20K-voll (A-847) | Pascal -Kontext 59 (PC-59) | Pascal -Kontext 459 (PC-459) | Pascal VOC 21 (PAS-21) | herunterladen | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Pq | Karte | Miou | Pq | Karte | Miou | Miou | Miou | Miou | Miou | ||
| ODISE (Etikett) | 22.6 | 14.4 | 29.9 | 55.4 | 46.0 | 65,2 | 11.1 | 57.3 | 14.5 | 84.6 | Kontrollpunkt |
| ODISE (Bildunterschrift) | 23.4 | 13.9 | 28.7 | 45,6 | 38,4 | 52.4 | 11.0 | 55.3 | 13.8 | 82.7 | Kontrollpunkt |
Siehe Vorbereitung von Datensätzen für ODISE.
Siehe Erste Schritte mit ODISE, um detaillierte Anweisungen zum Training und die Schlussfolgerung mit Odise zu erhalten.
In Umarmungsflächen integriert? mit Gradio. Probieren Sie die Web -Demo aus:
Führen Sie die Demo auf Google Colab aus:
Wichtiger Hinweis : Wenn Sie zum ersten Mal das Skript demo/demo.py ausführen, werden neben den vorgeborenen Modellen von Odise auch automatisch die vorgebauten Modelle für stabile Diffusion v1.3 und Clip von ihren ursprünglichen Quellen zu Ihren lokalen Verzeichnissen $HOME/.torch/ und $HOME/.cache/clip heruntergeladen. Die vorgebauten Modelle für stabile Diffusion und Clip unterliegen ihren ursprünglichen Lizenzbegriffen aus stabiler Diffusion bzw. Clip.
So führen Sie die Demo von Odise aus der Kommandozeile aus:
python demo/demo.py --input demo/examples/coco.jpg --output demo/coco_pred.jpg --vocab " black pickup truck, pickup truck; blue sky, sky " Die Ausgabe wird in demo/coco_pred.jpg gespeichert. Detailliertere Optionen für demo/demo.py finden Sie unter Erste Schritte mit Odise.
Um die Gradio -Demo lokal zu führen:
python demo/app.pyDer Code basiert größtenteils auf DETECTRON2, stabiler Diffusion, Mask2former, openClip und Gleit.
Vielen Dank für die großartigen Open-Source-Projekte!