ODISE : o Pen-vocabulary di ffusion 기반 Panoptic SE Gmentation Exploits 사전 훈련 된 텍스트 이미지 확산 및 판별 모델은 개방-배경 파노픽 세분화를 수행합니다. 이 두 모델의 냉동 표현을 활용하여 야생에서 어떤 범주의 모든 범주를 수행합니다.
이 저장소는 논문에 소개 된 ODISE의 공식 구현입니다.
텍스트-이미지 확산 모델을 사용한 개방-비경 평균 파노픽 세분화 Jiarui Xu , Sifei Liu *, Arash Vahdat *, Wonmin Byeon , Xiaolong Wang , Shalini de Mello CVPR 2023 하이라이트. (*동등한 기여)
비즈니스 문의는 당사 웹 사이트를 방문하여 다음 양식을 제출하십시오 : NVIDIA Research Licensing.







귀하의 연구에 우리의 작업이 유용하다는 것을 알게되면 다음을 인용하십시오.
@article { xu2023odise ,
title = { {Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models} } ,
author = { Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini } ,
journal = { arXiv preprint arXiv:2303.04803 } ,
year = { 2023 }
}실행을 통해 종속성을 설치합니다.
conda create -n odise python=3.9
conda activate odise
conda install pytorch=1.13.1 torchvision=0.14.1 pytorch-cuda=11.6 -c pytorch -c nvidia
conda install -c " nvidia/label/cuda-11.6.1 " libcusolver-dev
git clone [email protected]:NVlabs/ODISE.git
cd ODISE
pip install -e .(선택 사항) 효율적인 변압기 구현을 위해 Xformers 설치 : 미리 작성된 버전을 설치할 수 있습니다.
pip install xformers==0.0.16
또는 최신 소스에서 빌드하십시오
# (Optional) Makes the build much faster
pip install ninja
# Set TORCH_CUDA_ARCH_LIST if running and building on different GPU types
pip install -v -U git+https://github.com/facebookresearch/xformers.git@main#egg=xformers
# (this can take dozens of minutes) 우리는 Coco의 전체 교육 세트에 대한 라벨 또는 캡션 감독으로 훈련 된 ODISE에 대한 두 가지 미리 훈련 된 모델을 제공합니다. Odise의 미리 훈련 된 모델은 Creative Commons (Attribution-Noncommercial-Sharealike 4.0 International-CC By-NC-SA 4.0 라이센스 용어의 적용을받습니다. 각 모델에는 28.1m 트레이닝 가능한 매개 변수가 포함되어 있습니다. 이 모델의 다운로드 링크는 아래 표에 제공됩니다. demo/demo.py 또는 추론 스크립트를 처음으로 실행하면 Odise의 미리 훈련 된 모델을 자동으로 다운로드하여 로컬 폴더 $HOME/.torch/iopath_cache/NVlabs/ODISE/releases/download/v1.0.0/ .
| ADE20K (A-150) | 머리 | ade20k-full (A-847) | 파스칼 맥락 59 (PC-59) | 파스칼 컨텍스트 459 (PC-459) | 파스칼 VOC 21 (PAS-21) | 다운로드 | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| PQ | 지도 | 미우 | PQ | 지도 | 미우 | 미우 | 미우 | 미우 | 미우 | ||
| Odise (레이블) | 22.6 | 14.4 | 29.9 | 55.4 | 46.0 | 65.2 | 11.1 | 57.3 | 14.5 | 84.6 | 검문소 |
| Odise (캡션) | 23.4 | 13.9 | 28.7 | 45.6 | 38.4 | 52.4 | 11.0 | 55.3 | 13.8 | 82.7 | 검문소 |
ODISE를위한 데이터 세트 준비를 참조하십시오.
ODISE의 훈련 및 추론에 대한 자세한 지침은 Odise를 시작하는 것을 참조하십시오.
포옹 페이스 공간에 통합 되었습니까? Gradio 사용. 웹 데모를 시도해보십시오.
Google Colab에서 데모를 실행하십시오.
중요 참고 : demo/demo.py 스크립트를 처음으로 실행할 때 ODISE의 미리 훈련 된 모델 외에도 자동 디렉션 v1.3에 대한 미리 훈련 된 모델을 원래 소스에서 각각 지역 디렉토리 $HOME/.torch/ 및 $HOME/.cache/clip 로 자동 다운로드합니다. 안정적인 확산 및 클립에 대한 미리 훈련 된 모델은 각각 안정적인 확산 및 클립에서 각각 원래 라이센스 용어를받습니다.
명령 줄에서 Odise의 데모를 실행하려면 :
python demo/demo.py --input demo/examples/coco.jpg --output demo/coco_pred.jpg --vocab " black pickup truck, pickup truck; blue sky, sky " 출력은 demo/coco_pred.jpg 로 저장됩니다. demo/demo.py 에 대한 자세한 옵션은 Odise를 시작하는 것을 참조하십시오.
로컬로 Gradio 데모를 실행하려면 :
python demo/app.py코드는 주로 Detectron2, 안정적인 확산, Mask2Former, OpenClip 및 Glide를 기반으로합니다.
훌륭한 오픈 소스 프로젝트에 감사드립니다!