Odise : O pena-vocabulary di ffusion berbasis panoptik mengeksploitasi difusi gambar-gambar pra-terlatih dan model diskriminatif untuk melakukan segmentasi panoptik vokabulary terbuka. Ini memanfaatkan representasi beku dari kedua model ini untuk melakukan segmentasi panoptik dari kategori apa pun di alam liar.
Repositori ini adalah implementasi resmi Odise yang diperkenalkan di koran:
Segmentasi panoptik vokabulary terbuka dengan model difusi teks-ke-gambar Jiarui Xu , sifei liu *, Arash Vahdat *, Wonmin Byeon , Xiaolong Wang , Shalini de Mello CVPR 2023 Sorotan. (*Kontribusi yang sama)
Untuk pertanyaan bisnis, silakan kunjungi situs web kami dan kirimkan formulir: Lisensi Penelitian NVIDIA.







Jika Anda menemukan pekerjaan kami berguna dalam penelitian Anda, silakan kutip:
@article { xu2023odise ,
title = { {Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models} } ,
author = { Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini } ,
journal = { arXiv preprint arXiv:2303.04803 } ,
year = { 2023 }
}Instal dependensi dengan menjalankan:
conda create -n odise python=3.9
conda activate odise
conda install pytorch=1.13.1 torchvision=0.14.1 pytorch-cuda=11.6 -c pytorch -c nvidia
conda install -c " nvidia/label/cuda-11.6.1 " libcusolver-dev
git clone [email protected]:NVlabs/ODISE.git
cd ODISE
pip install -e .(Opsional) Instal XFormers untuk Implementasi Transformator yang Efisien: Seseorang dapat menginstal versi pra-built
pip install xformers==0.0.16
atau membangun dari sumber terbaru
# (Optional) Makes the build much faster
pip install ninja
# Set TORCH_CUDA_ARCH_LIST if running and building on different GPU types
pip install -v -U git+https://github.com/facebookresearch/xformers.git@main#egg=xformers
# (this can take dozens of minutes) Kami menyediakan dua model pra-terlatih untuk Odise yang dilatih dengan label atau pengawasan keterangan di seluruh set pelatihan Coco. Model pra-terlatih Odise tunduk pada Creative Commons-Atribution-NonCommercial-Sharealike 4.0 International-CC BY-NC-SA 4.0 Syarat Lisensi. Setiap model berisi 28,1m parameter yang dapat dilatih. Tautan unduhan untuk model ini disediakan dalam tabel di bawah ini. Ketika Anda menjalankan demo/demo.py atau skrip inferensi untuk pertama kalinya, itu juga akan secara otomatis mengunduh model pra-terlatih Odise ke folder lokal Anda $HOME/.torch/iopath_cache/NVlabs/ODISE/releases/download/v1.0.0/ .
| ADE20K (A-150) | KELAPA | Ade20k-full (A-847) | Konteks Pascal 59 (PC-59) | Konteks Pascal 459 (PC-459) | Pascal VOC 21 (PAS-21) | unduh | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| PQ | peta | Miou | PQ | peta | Miou | Miou | Miou | Miou | Miou | ||
| Odise (label) | 22.6 | 14.4 | 29.9 | 55.4 | 46.0 | 65.2 | 11.1 | 57.3 | 14.5 | 84.6 | pos pemeriksaan |
| Odise (Caption) | 23.4 | 13.9 | 28.7 | 45.6 | 38.4 | 52.4 | 11.0 | 55.3 | 13.8 | 82.7 | pos pemeriksaan |
Lihat Mempersiapkan Dataset untuk Odise.
Lihat Memulai dengan Odise untuk instruksi terperinci tentang pelatihan dan kesimpulan dengan Odise.
Terintegrasi ke dalam ruang pelukan? menggunakan gradio. Cobalah demo web:
Jalankan demo di Google Colab:
Catatan Penting : Ketika Anda menjalankan skrip demo/demo.py untuk pertama kalinya, selain model Odise yang sudah terlatih, itu juga akan secara otomatis mengunduh model pra-terlatih untuk difusi stabil v1.3 dan klip, dari sumber aslinya, ke direktori lokal Anda $HOME/.torch/ dan $HOME/.cache/clip , masing-masing. Model pra-terlatih untuk difusi dan klip yang stabil tunduk pada istilah lisensi aslinya dari difusi dan klip yang stabil.
Untuk menjalankan demo Odise dari baris perintah:
python demo/demo.py --input demo/examples/coco.jpg --output demo/coco_pred.jpg --vocab " black pickup truck, pickup truck; blue sky, sky " Output disimpan dalam demo/coco_pred.jpg . Untuk opsi lebih rinci untuk demo/demo.py lihat memulai dengan Odise.
Untuk menjalankan demo gradio secara lokal:
python demo/app.pyKode sebagian besar didasarkan pada detectron2, difusi stabil, mask2former, openclip dan glide.
Terima kasih, semuanya, untuk proyek sumber terbuka yang hebat!