Odise : o explota la difusión de la imagen de texto pre-entrenada y los modelos discriminativos para realizar la segmentación panóptica de los vocabularios pre -entrenados y los modelos discriminativos. Aprovecha la representación congelada de ambos modelos para realizar la segmentación panóptica de cualquier categoría en la naturaleza.
Este repositorio es la implementación oficial de Odise introducida en el documento:
Segmentación panóptica de vocabulario abierto con modelos de difusión de texto a imagen Jiarui Xu , Sifei Liu *, Arash Vahdat *, Wonmin Byeon , Xiaolong Wang , Shalini de Mello CVPR 2023 destacado. (*Contribución igual)
Para consultas comerciales, visite nuestro sitio web y envíe el formulario: Licencias de investigación de NVIDIA.







Si encuentra útil nuestro trabajo en su investigación, cite:
@article { xu2023odise ,
title = { {Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models} } ,
author = { Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini } ,
journal = { arXiv preprint arXiv:2303.04803 } ,
year = { 2023 }
}Instalar dependencias ejecutando:
conda create -n odise python=3.9
conda activate odise
conda install pytorch=1.13.1 torchvision=0.14.1 pytorch-cuda=11.6 -c pytorch -c nvidia
conda install -c " nvidia/label/cuda-11.6.1 " libcusolver-dev
git clone [email protected]:NVlabs/ODISE.git
cd ODISE
pip install -e .(Opcional) Instale los formadores X para la implementación eficiente del transformador: uno podría instalar la versión preconstruida
pip install xformers==0.0.16
o construir a partir de la última fuente
# (Optional) Makes the build much faster
pip install ninja
# Set TORCH_CUDA_ARCH_LIST if running and building on different GPU types
pip install -v -U git+https://github.com/facebookresearch/xformers.git@main#egg=xformers
# (this can take dozens of minutes) Proporcionamos dos modelos previamente capacitados para Odise entrenados con supervisión de etiquetas o subtítulos en el conjunto de entrenamiento completo de Coco. Los modelos previamente capacitados de Odise están sujetos a los Comunes Creativos-Atribución no comercial-Sharealike 4.0 International-CC BY-NC-SA 4.0 Términos de licencia. Cada modelo contiene 28.1m parámetros capacitables. Los enlaces de descarga para estos modelos se proporcionan en la tabla a continuación. Cuando ejecuta el script demo/demo.py o inferencia por primera vez, también descargará automáticamente el modelo previamente capacitado de Odise a su carpeta local $HOME/.torch/iopath_cache/NVlabs/ODISE/releases/download/v1.0.0/ .
| ADE20K (A-150) | PALMA DE COCO | ADE20K-FULL (A-847) | Contexto de Pascal 59 (PC-59) | Contexto de Pascal 459 (PC-459) | Pascal Voc 21 (PAS-21) | descargar | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Pq | mapa | miou | Pq | mapa | miou | miou | miou | miou | miou | ||
| Odise (etiqueta) | 22.6 | 14.4 | 29.9 | 55.4 | 46.0 | 65.2 | 11.1 | 57.3 | 14.5 | 84.6 | control |
| Odise (subtítulo) | 23.4 | 13.9 | 28.7 | 45.6 | 38.4 | 52.4 | 11.0 | 55.3 | 13.8 | 82.7 | control |
Ver preparación de conjuntos de datos para Odise.
Vea comenzar con Odise para obtener instrucciones detalladas sobre capacitación e inferencia con Odise.
Integrado en los espacios de la cara de abrazo? Usando Gradio. Prueba la demostración web:
Ejecute la demostración en Google Colab:
Nota importante : cuando ejecuta el script demo/demo.py por primera vez, además de los modelos previamente capacitados de Odise, también descargará automáticamente los modelos previamente capacitados para la difusión estable v1.3 y el clip, desde sus fuentes originales, hasta sus directorios locales $HOME/.torch/ y $HOME/.cache/clip , respectivamente. Los modelos previamente capacitados para la difusión y el clip estable están sujetos a sus términos originales de licencia de difusión y clip estable, respectivamente.
Para ejecutar la demostración de Odise desde la línea de comando:
python demo/demo.py --input demo/examples/coco.jpg --output demo/coco_pred.jpg --vocab " black pickup truck, pickup truck; blue sky, sky " La salida se guarda en demo/coco_pred.jpg . Para obtener opciones más detalladas para demo/demo.py consulte Comenzar con Odise.
Para ejecutar la demostración de Gradio localmente:
python demo/app.pyEl código se basa en gran medida en Detectron2, difusión estable, Mask2Former, OpenClip y Glide.
¡Gracias, todos, por los grandes proyectos de código abierto!