有機: o基於捲捲蛋白二次的全景範圍內的綜合剝削,可利用預訓練的文本圖像擴散和判別模型,以執行開放式雜質的全磁盤分割。它利用了這兩種模型的冷凍表示,以對野外任何類別進行全面分割。
該存儲庫是本文中引入的構成的正式實施:
帶有文本到圖像擴散模型Jiarui Xu , Sifei Liu *, Arash Vahdat *, Wonmin Byeon , Xiaolong Wang , Shalini de Mello Cvpr 2023突出顯示的開放式綜合綜合式分割。 (*同等貢獻)
有關業務查詢,請訪問我們的網站並提交表格:NVIDIA研究許可。







如果您發現我們的工作對您的研究有用,請引用:
@article { xu2023odise ,
title = { {Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models} } ,
author = { Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini } ,
journal = { arXiv preprint arXiv:2303.04803 } ,
year = { 2023 }
}通過運行安裝依賴項:
conda create -n odise python=3.9
conda activate odise
conda install pytorch=1.13.1 torchvision=0.14.1 pytorch-cuda=11.6 -c pytorch -c nvidia
conda install -c " nvidia/label/cuda-11.6.1 " libcusolver-dev
git clone [email protected]:NVlabs/ODISE.git
cd ODISE
pip install -e .(可選)安裝Xformers以進行有效的變壓器實現:一個人可以安裝預構建版本
pip install xformers==0.0.16
或從最新來源構建
# (Optional) Makes the build much faster
pip install ninja
# Set TORCH_CUDA_ARCH_LIST if running and building on different GPU types
pip install -v -U git+https://github.com/facebookresearch/xformers.git@main#egg=xformers
# (this can take dozens of minutes) 我們為可可的整個訓練集提供了兩種預先訓練的模型,該模型對可可的標籤或標題監督進行了訓練。 CODISE的預培訓模型受到創意共享的約束 - 歸因非商業共享4.0國際 - CC BY-NC-SA 4.0許可條款。每個模型都包含2810萬可訓練的參數。這些模型的下載鏈接在下表中提供。當您第一次運行demo/demo.py或推理腳本時,它還將自動下載Cotise的預培訓模型到您的本地文件夾$HOME/.torch/iopath_cache/NVlabs/ODISE/releases/download/v1.0.0/ 。
| ADE20K(A-150) | 可可 | ade20k-full (A-847) | 帕斯卡背景59 (PC-59) | 帕斯卡背景459 (PC-459) | Pascal VOC 21 (PAS-21) | 下載 | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| PQ | 地圖 | miou | PQ | 地圖 | miou | miou | miou | miou | miou | ||
| 質感(標籤) | 22.6 | 14.4 | 29.9 | 55.4 | 46.0 | 65.2 | 11.1 | 57.3 | 14.5 | 84.6 | 檢查點 |
| 疾病(標題) | 23.4 | 13.9 | 28.7 | 45.6 | 38.4 | 52.4 | 11.0 | 55.3 | 13.8 | 82.7 | 檢查點 |
請參閱準備數據集以獲取風險。
有關培訓和推斷有疾病的詳細說明,請參見入門。
集成到擁抱面空間?使用Gradio。嘗試網絡演示:
在Google Colab上運行演示:
重要說明:當您第一次運行demo/demo.py腳本時,除了Cogise的預培訓模型外,它還將自動下載用於穩定擴散v1.3的預訓練的模型,並分別從其原始源到您的本地目錄$HOME/.torch/ and .torch/and $HOME/.cache/clip 。穩定擴散和剪輯的預訓練模型分別遵守其原始許可條款,分別從穩定的擴散和夾子中遵守。
從命令行中運行CONISE的演示:
python demo/demo.py --input demo/examples/coco.jpg --output demo/coco_pred.jpg --vocab " black pickup truck, pickup truck; blue sky, sky "輸出保存在demo/coco_pred.jpg中。有關demo/demo.py的更詳細的選項,請參閱“以奇異”開始。
在本地運行Gradio演示:
python demo/app.py代碼主要基於檢測,穩定擴散,蒙版2Former,OpenClip和Glide。
謝謝大家的開源項目!