odise : oペンボキャブラリーディフュージョンベースのパノプティックセメンテーションは、事前に訓練されたテキストイメージの拡散と識別モデルを活用して、外的電子会議のパノプティックセグメンテーションを実行します。これらの両方のモデルの凍結表現を活用して、野生のあらゆるカテゴリのパノプティックセグメンテーションを実行します。
このリポジトリは、論文で導入されたオフィスの公式実装です。
テキストからイメージへの拡散モデルJiarui Xu 、 Sifei Liu *、 Arash Vahdat *、 Wonmin Byeon 、 Xiaolong Wang 、 Shalini de Mello CVPR 2023ハイライト。 (*平等な貢献)
ビジネスに関するお問い合わせについては、当社のWebサイトにアクセスして、フォームを提出してください:Nvidia Research Licensing。







私たちの研究があなたの研究で役立つと思うなら、引用してください:
@article { xu2023odise ,
title = { {Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models} } ,
author = { Xu, Jiarui and Liu, Sifei and Vahdat, Arash and Byeon, Wonmin and Wang, Xiaolong and De Mello, Shalini } ,
journal = { arXiv preprint arXiv:2303.04803 } ,
year = { 2023 }
}実行して依存関係をインストールします。
conda create -n odise python=3.9
conda activate odise
conda install pytorch=1.13.1 torchvision=0.14.1 pytorch-cuda=11.6 -c pytorch -c nvidia
conda install -c " nvidia/label/cuda-11.6.1 " libcusolver-dev
git clone [email protected]:NVlabs/ODISE.git
cd ODISE
pip install -e .(オプション)効率的な変圧器の実装のためにXformersをインストールする:事前に構築されたバージョンをインストールすることができます
pip install xformers==0.0.16
または最新のソースから構築します
# (Optional) Makes the build much faster
pip install ninja
# Set TORCH_CUDA_ARCH_LIST if running and building on different GPU types
pip install -v -U git+https://github.com/facebookresearch/xformers.git@main#egg=xformers
# (this can take dozens of minutes) ココのトレーニングセット全体でラベルまたはキャプションの監督でトレーニングされたオフィスの2つの事前に訓練されたモデルを提供します。 ODISEの事前に訓練されたモデルは、クリエイティブコモンズの対象となります - アトリビューション - ノンコマーシャル - 恥ずかしさ4.0 International - CC BY-NC-SA 4.0ライセンス条件。各モデルには、28.1mのトレーニング可能なパラメーターが含まれています。これらのモデルのダウンロードリンクは、以下の表に記載されています。 demo/demo.pyまたは推論スクリプトを初めて実行すると、Odiseの事前訓練モデルをローカルフォルダー$HOME/.torch/iopath_cache/NVlabs/ODISE/releases/download/v1.0.0/に自動的にダウンロードします。
| ADE20K(A-150) | ココ | ade20k-full (A-847) | パスカルコンテキスト59 (PC-59) | パスカルコンテキスト459 (PC-459) | Pascal Voc 21 (PAS-21) | ダウンロード | |||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| pq | 地図 | miou | pq | 地図 | miou | miou | miou | miou | miou | ||
| odise(ラベル) | 22.6 | 14.4 | 29.9 | 55.4 | 46.0 | 65.2 | 11.1 | 57.3 | 14.5 | 84.6 | チェックポイント |
| odise(キャプション) | 23.4 | 13.9 | 28.7 | 45.6 | 38.4 | 52.4 | 11.0 | 55.3 | 13.8 | 82.7 | チェックポイント |
odiseのデータセットの準備を参照してください。
トレーニングに関する詳細な手順とオフィスを使用した推論については、ODISEの開始を参照してください。
ハギングフェイススペースに統合されていますか?グラデーションの使用。 Webデモを試してみてください:
Google Colabでデモを実行します:
重要な注意:Odiseの事前に訓練されたモデルに加えて、 demo/demo.py $HOME/.cache/clipを初めて実行すると、元のソースからクリップ$HOME/.torch/事前トレーニングモデルを自動的にダウンロードします。安定した拡散とクリップの事前に訓練されたモデルは、それぞれ安定した拡散とクリップからの元のライセンス条件の対象となります。
コマンドラインからOdiseのデモを実行するには:
python demo/demo.py --input demo/examples/coco.jpg --output demo/coco_pred.jpg --vocab " black pickup truck, pickup truck; blue sky, sky "出力はdemo/coco_pred.jpgに保存されます。 demo/demo.pyのより詳細なオプションについては、ODISEの開始を参照してください。
グラデーションデモをローカルに実行するには:
python demo/app.pyコードは、主にdetectron2、安定した拡散、mask2former、openclip、glideに基づいています。
素晴らしいオープンソースプロジェクトをありがとう!