有机: o基于卷卷蛋白二次的全景范围内的综合剥削,可利用预训练的文本图像扩散和判别模型,以执行开放式杂质的全磁盘分割。它利用了这两种模型的冷冻表示,以对野外任何类别进行全面分割。
该存储库是本文中引入的构成的正式实施:
带有文本到图像扩散模型Jiarui Xu , Sifei Liu *, Arash Vahdat *, Wonmin Byeon , Xiaolong Wang , Shalini de Mello Cvpr 2023突出显示的开放式综合综合式分割。 (*同等贡献)
有关业务查询,请访问我们的网站并提交表格:NVIDIA研究许可。







如果您发现我们的工作对您的研究有用,请引用:
@article { xu2023odise ,
title = { {Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models} } ,
author = { Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini } ,
journal = { arXiv preprint arXiv:2303.04803 } ,
year = { 2023 }
}通过运行安装依赖项:
conda create -n odise python=3.9
conda activate odise
conda install pytorch=1.13.1 torchvision=0.14.1 pytorch-cuda=11.6 -c pytorch -c nvidia
conda install -c " nvidia/label/cuda-11.6.1 " libcusolver-dev
git clone [email protected]:NVlabs/ODISE.git
cd ODISE
pip install -e .(可选)安装Xformers以进行有效的变压器实现:一个人可以安装预构建版本
pip install xformers==0.0.16
或从最新来源构建
# (Optional) Makes the build much faster
pip install ninja
# Set TORCH_CUDA_ARCH_LIST if running and building on different GPU types
pip install -v -U git+https://github.com/facebookresearch/xformers.git@main#egg=xformers
# (this can take dozens of minutes) 我们为可可的整个训练集提供了两种预先训练的模型,该模型对可可的标签或标题监督进行了训练。 CODISE的预培训模型受到创意共享的约束 - 归因非商业共享4.0国际 - CC BY-NC-SA 4.0许可条款。每个模型都包含2810万可训练的参数。这些模型的下载链接在下表中提供。当您第一次运行demo/demo.py或推理脚本时,它还将自动下载Cotise的预培训模型到您的本地文件夹$HOME/.torch/iopath_cache/NVlabs/ODISE/releases/download/v1.0.0/ 。
| ADE20K(A-150) | 可可 | ade20k-full (A-847) | 帕斯卡背景59 (PC-59) | 帕斯卡背景459 (PC-459) | Pascal VOC 21 (PAS-21) | 下载 | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| PQ | 地图 | miou | PQ | 地图 | miou | miou | miou | miou | miou | ||
| 质感(标签) | 22.6 | 14.4 | 29.9 | 55.4 | 46.0 | 65.2 | 11.1 | 57.3 | 14.5 | 84.6 | 检查点 |
| 疾病(标题) | 23.4 | 13.9 | 28.7 | 45.6 | 38.4 | 52.4 | 11.0 | 55.3 | 13.8 | 82.7 | 检查点 |
请参阅准备数据集以获取风险。
有关培训和推断有疾病的详细说明,请参见入门。
集成到拥抱面空间?使用Gradio。尝试网络演示:
在Google Colab上运行演示:
重要说明:当您第一次运行demo/demo.py脚本时,除了Cogise的预培训模型外,它还将自动下载用于稳定扩散v1.3的预训练的模型,并分别从其原始源到您的本地目录$HOME/.torch/ and .torch/and $HOME/.cache/clip 。稳定扩散和剪辑的预训练模型分别遵守其原始许可条款,分别从稳定的扩散和夹子中遵守。
从命令行中运行CONISE的演示:
python demo/demo.py --input demo/examples/coco.jpg --output demo/coco_pred.jpg --vocab " black pickup truck, pickup truck; blue sky, sky "输出保存在demo/coco_pred.jpg中。有关demo/demo.py的更详细的选项,请参阅“以奇异”开始。
在本地运行Gradio演示:
python demo/app.py代码主要基于检测,稳定扩散,蒙版2Former,OpenClip和Glide。
谢谢大家的开源项目!