Download de Pointcept - Download do código -fonte Pointcept

O Pointcept é uma base de código poderosa e flexível para a pesquisa de percepção em nuvem de pontos. É também uma implementação oficial do seguinte artigo:

Transformador de ponto V3: mais simples, mais rápido, mais forte
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
Conferência do IEEE sobre visão computacional e reconhecimento de padrões ( CVPR ) 2024 - Oral
[Backbone] [ptv3] - [arxiv] [Bib] [Project] → Aqui
OA-CNNS: CNNs esparsas omni-adaptativas para segmentação semântica 3D
Bohao Peng, Xiaoyang Wu, Li Jiang, Yukang Chen, Hengshuang Zhao, Zhuotao Tian, Jiaya Jia
Conferência do IEEE sobre visão computacional e reconhecimento de padrões ( CVPR ) 2024
[Backbone] [OA -CNNS] - [Arxiv] [Bib] → Aqui
Rumo à representação 3D em larga escala Aprendizando com treinamento rápido de pontos de dados de dados de dados
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao
Conferência do IEEE sobre visão computacional e reconhecimento de padrões ( CVPR ) 2024
[Pré -Train] [ppt] - [arxiv] [babador] → aqui
Contraste de cena mascarada: uma estrutura escalável para o aprendizado de representação 3D não supervisionado
Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao
Conferência do IEEE sobre visão computacional e reconhecimento de padrões ( CVPR ) 2023
[Pré -TRAIN] [MSC] - [Arxiv] [Bib] → Aqui
Classificador de aprendizagem de contexto para segmentação semântica (parte 3D)
Zhuotao Tian, Jiequan Cui, Li Jiang, Xiaojuan Qi, Xin Lai, Yixin Chen, Shu Liu, Jiaya Jia
Conferência AAAI sobre Inteligência Artificial ( AAAI ) 2023 - Oral
[Semseg] [CAC] - [arxiv] [Bib] [2d Parte] → Aqui
Transformador de Point V2: Atenção de vetor agrupada e pool baseado em partição
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao
Conferência sobre sistemas de processamento de informações neurais ( Neurips ) 2022
[Backbone] [ptv2] - [arxiv] [Bib] → Aqui
Transformador de pontos
Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip Torr, Vladlen Koltun
Conferência Internacional do IEEE sobre Visão Computal ( ICCV ) 2021 - Oral
[Backbone] [ptv1] - [arxiv] [babador] → aqui

Além disso, o Pointcept integra o seguinte excelente trabalho (contém acima):
Backbone: Minkunet (aqui), Spunet (aqui), spvcnn (aqui), oacnns (aqui), ptv1 (aqui), ptv2 (aqui), ptv3 (aqui), StratifiedFormer (aqui), Octformer (aqui), swin3d (aqui);
Segmentação semântica: mix3d (aqui), CAC (aqui);
Segmentação da instância: PointGroup (aqui);
Pré-treinamento: PointContrast (aqui), contextos de cena contrastivos (aqui), contraste de cena mascarada (aqui), treinamento de destaque (aqui);
Conjuntos de dados: scannet (aqui), scannet200 (aqui), scannet ++ (aqui), s3dis (aqui), matemport3d (aqui), arkitscene, structured3d (aqui), semantickitti (aqui), nusCenes (aqui), modelnet40 (aqui), waymo ().

Destaques

Maio de 2024 : em v1.5.2, redesenhamos a estrutura padrão para cada conjunto de dados para melhor desempenho. Por favor , reenvie os conjuntos de dados de pré-processo ou faça o download de nossos conjuntos de dados pré-processados a partir daqui .
Abr, 2024 : O PTV3 é selecionado como um dos 90 artigos orais (3,3% aceitos, 0,78% de submissões) pelo CVPR'24!
Mar, 2024 : Lançamos o código para OA-CNNs , aceito por CVPR'24. Problema relacionado ao OA-CNNS pode @pbihao.
Fev, 2024 : PTV3 e PPT são aceitos pelo CVPR'24, outros dois artigos da nossa equipe de ponto -conceito também foram aceitos pelo CVPR'24 ???. Nós os disponibilizaremos publicamente em breve!
Dez, 2023 : PTV3 é lançado no ARXIV e o código está disponível no PointCcet. O PTV3 é um modelo de espinha dorsal eficiente que atinge performances SOTA em cenários internos e externos.
Agosto de 2023 : PPT é lançado no Arxiv. O PPT apresenta uma estrutura de pré-treinamento com vários dados que atinge o desempenho do SOTA em cenários internos e externos . É compatível com várias estruturas de pré-treinamento existentes e backbones. Uma versão pré-lançamento do código é acessível; Para os interessados, não hesite em entrar em contato comigo diretamente para acesso.
Mar, 2023 : Lançamos nossa base de código, Pointcept , uma ferramenta altamente potente para o aprendizado e percepção da representação em nuvem de pontos. Congratulamo -nos com um novo trabalho para ingressar na família Pointcept e recomendamos a leitura rápida antes de iniciar sua trilha.
Fevereiro de 2023 : MSC e CECO aceitos pelo CVPR 2023. O MSC é uma estrutura de pré-treinamento altamente eficiente e eficaz que facilita o pré-treinamento em larga escala de cena entre dados cruzados, enquanto o CECO é um método de segmentação projetado especificamente para dados de longa duração. Ambas as abordagens são compatíveis com todos os modelos de backbone existentes em nossa base de código e em breve disponibilizaremos o código para uso público.
Jan, 2023 : CAC , obra oral da AAAI 2023, expandiu seu resultado 3D com a incorporação do Pointcept. Essa adição permitirá que o CAC sirva como um segmentador flugable em nossa base de código.
Set, 2022 : PTV2 aceito por Neurips 2022. É uma continuação do transformador de pontos. A teoria da GVA proposta pode se aplicar à maioria dos mecanismos de atenção existentes, enquanto o pool de grade também é uma adição prática aos métodos de agrupamento existentes.

Citação

Se você achar o ponto de vista útil para sua pesquisa, cite nosso trabalho como incentivo. (੭ˊ꒳ˋ) ੭✧

 @misc{pointcept2023,
    title={Pointcept: A Codebase for Point Cloud Perception Research},
    author={Pointcept Contributors},
    howpublished = {url{https://github.com/Pointcept/Pointcept}},
    year={2023}
}

Visão geral

Instalação
Preparação de dados
Início rápido
Modelo Zoológico
Citação
Reconhecimento

Instalação

Requisitos

Ubuntu: 18.04 e acima.
CUDA: 11.3 e acima.
Pytorch: 1.10.0 e acima.

Ambiente de Conde

conda create -n pointcept python=3.8 -y
conda activate pointcept
conda install ninja -y
# Choose version you want here: https://pytorch.org/get-started/previous-versions/
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.3 -c pytorch -y
conda install h5py pyyaml -c anaconda -y
conda install sharedarray tensorboard tensorboardx yapf addict einops scipy plyfile termcolor timm -c conda-forge -y
conda install pytorch-cluster pytorch-scatter pytorch-sparse -c pyg -y
pip install torch-geometric

# spconv (SparseUNet)
# refer https://github.com/traveller59/spconv
pip install spconv-cu113

# PPT (clip)
pip install ftfy regex tqdm
pip install git+https://github.com/openai/CLIP.git

# PTv1 & PTv2 or precise eval
cd libs/pointops
# usual
python setup.py install
# docker & multi GPU arch
TORCH_CUDA_ARCH_LIST= " ARCH LIST " python  setup.py install
# e.g. 7.5: RTX 3000; 8.0: a100 More available in: https://developer.nvidia.com/cuda-gpus
TORCH_CUDA_ARCH_LIST= " 7.5 8.0 " python  setup.py install
cd ../..

# Open3D (visualization, optional)
pip install open3d

Preparação de dados

Scannet v2

O pré -processamento suporta a segmentação semântica e de instância para os dados ScanNet20 , ScanNet200 e ScanNet Data Efficient .

Faça o download do conjunto de dados Scannet V2.

Execute o código de pré -processamento para scannet bruto da seguinte forma:

 # RAW_SCANNET_DIR: the directory of downloaded ScanNet v2 raw dataset.
# PROCESSED_SCANNET_DIR: the directory of the processed ScanNet dataset (output dir).
python pointcept/datasets/preprocessing/scannet/preprocess_scannet.py --dataset_root ${RAW_SCANNET_DIR} --output_root ${PROCESSED_SCANNET_DIR}

(Opcional) Download de arquivos eficientes de dados do scannet:

 # download-scannet.py is the official download script
# or follow instructions here: https://kaldir.vc.in.tum.de/scannet_benchmark/data_efficient/documentation#download
python download-scannet.py --data_efficient -o ${RAW_SCANNET_DIR}
# unzip downloads
cd ${RAW_SCANNET_DIR} /tasks
unzip limited-annotation-points.zip
unzip limited-reconstruction-scenes.zip
# copy files to processed dataset folder
mkdir ${PROCESSED_SCANNET_DIR} /tasks
cp -r ${RAW_SCANNET_DIR} /tasks/points ${PROCESSED_SCANNET_DIR} /tasks
cp -r ${RAW_SCANNET_DIR} /tasks/scenes ${PROCESSED_SCANNET_DIR} /tasks

(Alternativa) Nossos dados de pré -processamento podem ser baixados diretamente [aqui], concorde a licença oficial antes de baixá -los.

LINK DATASET processado para CodeBase:

 # PROCESSED_SCANNET_DIR: the directory of the processed ScanNet dataset.
mkdir data
ln -s ${PROCESSED_SCANNET_DIR} ${CODEBASE_DIR} /data/scannet

Scannet ++

Faça o download do conjunto de dados Scannet ++.

Execute o código de pré -processamento para scannet bruto ++ da seguinte forma:

 # RAW_SCANNETPP_DIR: the directory of downloaded ScanNet++ raw dataset.
# PROCESSED_SCANNETPP_DIR: the directory of the processed ScanNet++ dataset (output dir).
# NUM_WORKERS: the number of workers for parallel preprocessing.
python pointcept/datasets/preprocessing/scannetpp/preprocess_scannetpp.py --dataset_root ${RAW_SCANNETPP_DIR} --output_root ${PROCESSED_SCANNETPP_DIR} --num_workers ${NUM_WORKERS}

Amostragem e Chunking Large Point Cloud Data em Split de trem/Val da seguinte maneira (usada apenas para treinamento):

 # PROCESSED_SCANNETPP_DIR: the directory of the processed ScanNet++ dataset (output dir).
# NUM_WORKERS: the number of workers for parallel preprocessing.
python pointcept/datasets/preprocessing/sampling_chunking_data.py --dataset_root ${PROCESSED_SCANNETPP_DIR} --grid_size 0.01 --chunk_range 6 6 --chunk_stride 3 3 --split train --num_workers ${NUM_WORKERS}
python pointcept/datasets/preprocessing/sampling_chunking_data.py --dataset_root ${PROCESSED_SCANNETPP_DIR} --grid_size 0.01 --chunk_range 6 6 --chunk_stride 3 3 --split val --num_workers ${NUM_WORKERS}

(Alternativa) Nossos dados de pré -processamento podem ser baixados diretamente [aqui], concorde a licença oficial antes de baixá -los.

LINK DATASET processado para CodeBase:

 # PROCESSED_SCANNETPP_DIR: the directory of the processed ScanNet dataset.
mkdir data
ln -s ${PROCESSED_SCANNETPP_DIR} ${CODEBASE_DIR} /data/scannetpp

S3dis

Faça o download dos dados S3DIS preenchendo este formulário do Google. Faça o download do arquivo Stanford3dDataset_v1.2.zip e descompacte -o.
Corrija o erro em Area_5/office_19/Annotations/ceiling 323474 (103,0�0000 => 103.000000).
(Opcional) Faça o download do conjunto de dados completos de 2D-3D S3DIS (sem XYZ) daqui para analisar o normal.

Execute o código de pré -processamento para S3DIS da seguinte forma:

 # S3DIS_DIR: the directory of downloaded Stanford3dDataset_v1.2 dataset.
# RAW_S3DIS_DIR: the directory of Stanford2d3dDataset_noXYZ dataset. (optional, for parsing normal)
# PROCESSED_S3DIS_DIR: the directory of processed S3DIS dataset (output dir).

# S3DIS without aligned angle
python pointcept/datasets/preprocessing/s3dis/preprocess_s3dis.py --dataset_root ${S3DIS_DIR} --output_root ${PROCESSED_S3DIS_DIR}
# S3DIS with aligned angle
python pointcept/datasets/preprocessing/s3dis/preprocess_s3dis.py --dataset_root ${S3DIS_DIR} --output_root ${PROCESSED_S3DIS_DIR} --align_angle
# S3DIS with normal vector (recommended, normal is helpful)
python pointcept/datasets/preprocessing/s3dis/preprocess_s3dis.py --dataset_root ${S3DIS_DIR} --output_root ${PROCESSED_S3DIS_DIR} --raw_root ${RAW_S3DIS_DIR} --parse_normal
python pointcept/datasets/preprocessing/s3dis/preprocess_s3dis.py --dataset_root ${S3DIS_DIR} --output_root ${PROCESSED_S3DIS_DIR} --raw_root ${RAW_S3DIS_DIR} --align_angle --parse_normal

(Alternativa) Nossos dados de pré -processamento também podem ser baixados [aqui] (com vetor normal e ângulo alinhado), concorde com a licença oficial antes de baixá -lo.

LINK DATASET processado à CodeBase.

 # PROCESSED_S3DIS_DIR: the directory of processed S3DIS dataset.
mkdir data
ln -s ${PROCESSED_S3DIS_DIR} ${CODEBASE_DIR} /data/s3dis

Estruturado3d

Faça o download do Structured3D Panorama relacionado e em perspectiva (completo) arquivos ZIP preenchendo este formulário do Google (sem necessidade de descompactá -los).
Organize todo o arquivo zip baixado em uma pasta ( ${STRUCT3D_DIR} ).

Execute o código de pré -processamento para o Structured3D da seguinte maneira:

 # STRUCT3D_DIR: the directory of downloaded Structured3D dataset.
# PROCESSED_STRUCT3D_DIR: the directory of processed Structured3D dataset (output dir).
# NUM_WORKERS: Number for workers for preprocessing, default same as cpu count (might OOM).
export PYTHONPATH=./
python pointcept/datasets/preprocessing/structured3d/preprocess_structured3d.py --dataset_root ${STRUCT3D_DIR} --output_root ${PROCESSED_STRUCT3D_DIR} --num_workers ${NUM_WORKERS} --grid_size 0.01 --fuse_prsp --fuse_pano

Após a instrução do SWIN3D, mantemos 25 categorias com frequências superiores a 0,001, das 40 categorias originais.

(Alternativa) Nossos dados de pré -processamento também podem ser baixados [aqui] (com visualizações de perspectiva e Panorama View, 471.7g após descompactar), concorde a licença oficial antes de baixá -lo.

LINK DATASET processado à CodeBase.

 # PROCESSED_STRUCT3D_DIR: the directory of processed Structured3D dataset (output dir).
mkdir data
ln -s ${PROCESSED_STRUCT3D_DIR} ${CODEBASE_DIR} /data/structured3d

Matterport3D

Siga esta página para solicitar acesso ao conjunto de dados.

Faça o download do tipo "Region_segmentation", que representa a divisão de uma cena em salas individuais.

 # download-mp.py is the official download script
# MATTERPORT3D_DIR: the directory of downloaded Matterport3D dataset.
python download-mp.py -o {MATTERPORT3D_DIR} --type region_segmentations

Descompactar os dados da Region_segmentations

 # MATTERPORT3D_DIR: the directory of downloaded Matterport3D dataset.
python pointcept/datasets/preprocessing/matterport3d/unzip_matterport3d_region_segmentation.py --dataset_root {MATTERPORT3D_DIR}

Execute o código de pré -processamento para Matterport3D da seguinte forma:

 # MATTERPORT3D_DIR: the directory of downloaded Matterport3D dataset.
# PROCESSED_MATTERPORT3D_DIR: the directory of processed Matterport3D dataset (output dir).
# NUM_WORKERS: the number of workers for this preprocessing.
python pointcept/datasets/preprocessing/matterport3d/preprocess_matterport3d_mesh.py --dataset_root ${MATTERPORT3D_DIR} --output_root ${PROCESSED_MATTERPORT3D_DIR} --num_workers ${NUM_WORKERS}

LINK DATASET processado à CodeBase.

 # PROCESSED_MATTERPORT3D_DIR: the directory of processed Matterport3D dataset (output dir).
mkdir data
ln -s ${PROCESSED_MATTERPORT3D_DIR} ${CODEBASE_DIR} /data/matterport3d

Seguindo as instruções das salas de abertura, remancemos as categorias da Matterport3D para scannet 20 categorias semânticas com a adição de uma categoria de teto.

(Alternativa) Nossos dados de pré -processamento também podem ser baixados aqui, concorde a licença oficial antes de baixá -los.

Semantickitti

Baixe o conjunto de dados semantickitti.

LINK DATASET à CodeBase.

 # SEMANTIC_KITTI_DIR: the directory of SemanticKITTI dataset.
# |- SEMANTIC_KITTI_DIR
#   |- dataset
#     |- sequences
#       |- 00
#       |- 01
#       |- ...

mkdir -p data
ln -s ${SEMANTIC_KITTI_DIR} ${CODEBASE_DIR} /data/semantic_kitti

nuscênios

Faça o download do conjunto de dados oficial do NUSCENE (com segmentação LIDAR) e organize os arquivos baixados da seguinte forma:
```
NUSCENES_DIR
│── samples
│── sweeps
│── lidarseg
...
│── v1.0-trainval 
│── v1.0-test
```

Execute o código de pré -processamento de informações (modificado no OpenPCDET) para nuscênios da seguinte forma:

 # NUSCENES_DIR: the directory of downloaded nuScenes dataset.
# PROCESSED_NUSCENES_DIR: the directory of processed nuScenes dataset (output dir).
# MAX_SWEEPS: Max number of sweeps. Default: 10.
pip install nuscenes-devkit pyquaternion
python pointcept/datasets/preprocessing/nuscenes/preprocess_nuscenes_info.py --dataset_root ${NUSCENES_DIR} --output_root ${PROCESSED_NUSCENES_DIR} --max_sweeps ${MAX_SWEEPS} --with_camera

(Alternativa) Nossos dados de informação de pré -processamento NusCenes também podem ser baixados [aqui] (apenas informações processadas, ainda precisam fazer o download do conjunto de dados bruto e link para a pasta), concorde a licença oficial antes de baixá -la.

Vincular o conjunto de dados bruto à pasta de conjunto de dados do NUSCENE processada:

 # NUSCENES_DIR: the directory of downloaded nuScenes dataset.
# PROCESSED_NUSCENES_DIR: the directory of processed nuScenes dataset (output dir).
ln -s ${NUSCENES_DIR} {PROCESSED_NUSCENES_DIR}/raw

Em seguida, a pasta processada nuscena é organizada da seguinte maneira:

nuscene
| ── raw
    │── samples
    │── sweeps
    │── lidarseg
    ...
    │── v1.0-trainval
    │── v1.0-test
| ── info

LINK DATASET processado à CodeBase.

 # PROCESSED_NUSCENES_DIR: the directory of processed nuScenes dataset (output dir).
mkdir data
ln -s ${PROCESSED_NUSCENES_DIR} ${CODEBASE_DIR} /data/nuscenes

Waymo

Faça o download do conjunto de dados Official Waymo (v1.4.3) e organize os arquivos baixados da seguinte forma:
```
WAYMO_RAW_DIR
│── training
│── validation
│── testing
```

Instale a seguinte dependência:

 # If shows "No matching distribution found", download whl directly from Pypi and install the package.
conda create -n waymo python=3.10 -y
conda activate waymo
pip install waymo-open-dataset-tf-2-12-0

Execute o código de pré -processamento da seguinte forma:

 # WAYMO_DIR: the directory of the downloaded Waymo dataset.
# PROCESSED_WAYMO_DIR: the directory of the processed Waymo dataset (output dir).
# NUM_WORKERS: num workers for preprocessing
python pointcept/datasets/preprocessing/waymo/preprocess_waymo.py --dataset_root ${WAYMO_DIR} --output_root ${PROCESSED_WAYMO_DIR} --splits training validation --num_workers ${NUM_WORKERS}

LINK DATASET processado à base de código.

 # PROCESSED_WAYMO_DIR: the directory of the processed Waymo dataset (output dir).
mkdir data
ln -s ${PROCESSED_WAYMO_DIR} ${CODEBASE_DIR} /data/waymo

ModelNet

Download ModelNet40_Normal_Resampled.zip e Unzip

Link para o conjunto de dados à base de código.

mkdir -p data
ln -s ${MODELNET_DIR} ${CODEBASE_DIR} /data/modelnet40_normal_resampled

Início rápido

Treinamento

Treine do zero. O processamento de treinamento é baseado em configurações na pasta configs . O script de treinamento gerará uma pasta de experimentos na pasta exp e o código essencial de backup na pasta de experimentos. A configuração de treinamento, log, tensorboard e pontos de verificação também serão salvos na pasta do experimento durante o processo de treinamento.

 export CUDA_VISIBLE_DEVICES= ${CUDA_VISIBLE_DEVICES}
# Script (Recommended)
sh scripts/train.sh -p ${INTERPRETER_PATH} -g ${NUM_GPU} -d ${DATASET_NAME} -c ${CONFIG_NAME} -n ${EXP_NAME}
# Direct
export PYTHONPATH=./
python tools/train.py --config-file ${CONFIG_PATH} --num-gpus ${NUM_GPU} --options save_path= ${SAVE_PATH}

Por exemplo:

 # By script (Recommended)
# -p is default set as python and can be ignored
sh scripts/train.sh -p python -d scannet -c semseg-pt-v2m2-0-base -n semseg-pt-v2m2-0-base
# Direct
export PYTHONPATH=./
python tools/train.py --config-file configs/scannet/semseg-pt-v2m2-0-base.py --options save_path=exp/scannet/semseg-pt-v2m2-0-base

Retomar o treinamento do ponto de verificação. Se o processo de treinamento for interrompido por acidente, o script a seguir poderá retomar o treinamento de um determinado ponto de verificação.

 export CUDA_VISIBLE_DEVICES= ${CUDA_VISIBLE_DEVICES}
# Script (Recommended)
# simply add "-r true"
sh scripts/train.sh -p ${INTERPRETER_PATH} -g ${NUM_GPU} -d ${DATASET_NAME} -c ${CONFIG_NAME} -n ${EXP_NAME} -r true
# Direct
export PYTHONPATH=./
python tools/train.py --config-file ${CONFIG_PATH} --num-gpus ${NUM_GPU} --options save_path= ${SAVE_PATH} resume=True weight= ${CHECKPOINT_PATH}

Teste

Durante o treinamento, a avaliação do modelo é realizada nas nuvens de ponto após a amostragem da grade (voxelização), fornecendo uma avaliação inicial do desempenho do modelo. No entanto, para obter resultados precisos de avaliação, o teste é essencial . O processo de teste envolve a subamostragem de uma nuvem de ponto densa em uma sequência de nuvens de ponto voxelizado, garantindo uma cobertura abrangente de todos os pontos. Esses subsultores são então previstos e coletados para formar uma previsão completa de toda a nuvem de pontos. Essa abordagem gera resultados de avaliação mais altos em comparação com o simplesmente mapeamento/interpolação da previsão. Além disso, nosso código de teste suporta testes de TTA (aumento do tempo de teste), o que aumenta ainda mais a estabilidade do desempenho da avaliação.

 # By script (Based on experiment folder created by training script)
sh scripts/test.sh -p ${INTERPRETER_PATH} -g ${NUM_GPU} -d ${DATASET_NAME} -n ${EXP_NAME} -w ${CHECKPOINT_NAME}
# Direct
export PYTHONPATH=./
python tools/test.py --config-file ${CONFIG_PATH} --num-gpus ${NUM_GPU} --options save_path= ${SAVE_PATH} weight= ${CHECKPOINT_PATH}

Por exemplo:

 # By script (Based on experiment folder created by training script)
# -p is default set as python and can be ignored
# -w is default set as model_best and can be ignored
sh scripts/test.sh -p python -d scannet -n semseg-pt-v2m2-0-base -w model_best
# Direct
export PYTHONPATH=./
python tools/test.py --config-file configs/scannet/semseg-pt-v2m2-0-base.py --options save_path=exp/scannet/semseg-pt-v2m2-0-base weight=exp/scannet/semseg-pt-v2m2-0-base/model/model_best.pth

O TTA pode ser desativado por substituir data.test.test_cfg.aug_transform = [...] com:

 data = dict (
    train = dict (...),
    val = dict (...),
    test = dict (
        ...,
        test_cfg = dict (
            ...,
            aug_transform = [
                [ dict ( type = "RandomRotateTargetAngle" , angle = [ 0 ], axis = "z" , center = [ 0 , 0 , 0 ], p = 1 )]
            ]
        )
    )
)

Desvio

Offset é o separador das nuvens de ponto nos dados do lote e é semelhante ao conceito de Batch em PYG. Uma ilustração visual de lote e deslocamento é a seguinte:

Modelo Zoológico

1. Backbones e segmentação semântica

Sparseunet

O Pointcept fornece SparseUNet implementado pela SpConv e MinkowskiEngine . A versão SPCONV é recomendada, pois o SPCONV é fácil de instalar e mais rápido que o Minkowskiengine. Enquanto isso, o SPCONV também é amplamente aplicado na percepção ao ar livre.

SPCONV (Recomenda)

A versão spconv SparseUNet na base de código foi totalmente reescrita da versão MinkowskiEngine , o exemplo de execução do script é o seguinte:

 # ScanNet val
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-0-base -n semseg-spunet-v1m1-0-base
# ScanNet200
sh scripts/train.sh -g 4 -d scannet200 -c semseg-spunet-v1m1-0-base -n semseg-spunet-v1m1-0-base
# S3DIS
sh scripts/train.sh -g 4 -d s3dis -c semseg-spunet-v1m1-0-base -n semseg-spunet-v1m1-0-base
# S3DIS (with normal)
sh scripts/train.sh -g 4 -d s3dis -c semseg-spunet-v1m1-0-cn-base -n semseg-spunet-v1m1-0-cn-base
# SemanticKITTI
sh scripts/train.sh -g 4 -d semantic_kitti -c semseg-spunet-v1m1-0-base -n semseg-spunet-v1m1-0-base
# nuScenes
sh scripts/train.sh -g 4 -d nuscenes -c semseg-spunet-v1m1-0-base -n semseg-spunet-v1m1-0-base
# ModelNet40
sh scripts/train.sh -g 2 -d modelnet40 -c cls-spunet-v1m1-0-base -n cls-spunet-v1m1-0-base

# ScanNet Data Efficient
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-2-efficient-la20 -n semseg-spunet-v1m1-2-efficient-la20
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-2-efficient-la50 -n semseg-spunet-v1m1-2-efficient-la50
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-2-efficient-la100 -n semseg-spunet-v1m1-2-efficient-la100
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-2-efficient-la200 -n semseg-spunet-v1m1-2-efficient-la200
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-2-efficient-lr1 -n semseg-spunet-v1m1-2-efficient-lr1
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-2-efficient-lr5 -n semseg-spunet-v1m1-2-efficient-lr5
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-2-efficient-lr10 -n semseg-spunet-v1m1-2-efficient-lr10
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-2-efficient-lr20 -n semseg-spunet-v1m1-2-efficient-lr20

# Profile model run time
sh scripts/train.sh -g 4 -d scannet -c semseg-spunet-v1m1-0-enable-profiler -n semseg-spunet-v1m1-0-enable-profiler

Minkowskiengine

A versão Minkowskiengine SparseUNet na base de código foi modificada no repositório original de Minkowskiengine, e o exemplo de scripts em execução é o seguinte:

Instale Minkowskiengine, consulte https://github.com/nvidia/minkowskiengine
Treinamento com os seguintes scripts de exemplo:

 # Uncomment "# from .sparse_unet import *" in "pointcept/models/__init__.py"
# Uncomment "# from .mink_unet import *" in "pointcept/models/sparse_unet/__init__.py"
# ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-minkunet34c-0-base -n semseg-minkunet34c-0-base
# ScanNet200
sh scripts/train.sh -g 4 -d scannet200 -c semseg-minkunet34c-0-base -n semseg-minkunet34c-0-base
# S3DIS
sh scripts/train.sh -g 4 -d s3dis -c semseg-minkunet34c-0-base -n semseg-minkunet34c-0-base
# SemanticKITTI
sh scripts/train.sh -g 2 -d semantic_kitti -c semseg-minkunet34c-0-base -n semseg-minkunet34c-0-base

OA-CNNS

Introdução de CNNs 3D OMNI-Adaptive ( OA-CNNs ), uma família de redes que integra um módulo leve para melhorar bastante a adaptividade dos CNNs esparsos a um custo computacional mínimo. Sem módulos de auto-ataque, o OA-CNNs superam favoravelmente transformadores de pontos em termos de precisão em cenas internas e externas, com muito menos custo de latência e memória. Problema relacionado ao OA-CNNS pode @pbihao.

 # ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-oacnns-v1m1-0-base -n semseg-oacnns-v1m1-0-base

Transformadores de pontos

Ptv3

O PTV3 é um modelo de espinha dorsal eficiente que atinge performances SOTA em cenários internos e externos. O PTV3 completo depende da Flashattion, enquanto a Flashattion depende do CUDA 11.6 e acima, verifique se o ambiente de ponto de ponto local satisfaz os requisitos.

Se você não puder atualizar seu ambiente local para atender aos requisitos (CUDA> = 11.6), poderá desativar a Flashattion, definindo o parâmetro do modelo enable_flash como false e reduzindo o enc_patch_size e dec_patch_size para um nível (por exemplo, 128).

A Força Flashattion desativa o EPR e força a precisão reduzida para FP16. Se você precisar desses recursos, desabilite enable_flash e ajuste enable_rpe , upcast_attention e upcast_softmax .

Instruções detalhadas e registros de experimentos (contendo pesos) estão disponíveis no repositório do projeto. Exemplo de scripts em execução são os seguintes:

 # Scratched ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-pt-v3m1-0-base -n semseg-pt-v3m1-0-base
# PPT joint training (ScanNet + Structured3D) and evaluate in ScanNet
sh scripts/train.sh -g 8 -d scannet -c semseg-pt-v3m1-1-ppt-extreme -n semseg-pt-v3m1-1-ppt-extreme

# Scratched ScanNet200
sh scripts/train.sh -g 4 -d scannet200 -c semseg-pt-v3m1-0-base -n semseg-pt-v3m1-0-base
# Fine-tuning from  PPT joint training (ScanNet + Structured3D) with ScanNet200
# PTV3_PPT_WEIGHT_PATH: Path to model weight trained by PPT multi-dataset joint training
# e.g. exp/scannet/semseg-pt-v3m1-1-ppt-extreme/model/model_best.pth
sh scripts/train.sh -g 4 -d scannet200 -c semseg-pt-v3m1-1-ppt-ft -n semseg-pt-v3m1-1-ppt-ft -w ${PTV3_PPT_WEIGHT_PATH}

# Scratched ScanNet++
sh scripts/train.sh -g 4 -d scannetpp -c semseg-pt-v3m1-0-base -n semseg-pt-v3m1-0-base
# Scratched ScanNet++ test
sh scripts/train.sh -g 4 -d scannetpp -c semseg-pt-v3m1-1-submit -n semseg-pt-v3m1-1-submit


# Scratched S3DIS
sh scripts/train.sh -g 4 -d s3dis -c semseg-pt-v3m1-0-base -n semseg-pt-v3m1-0-base
# an example for disbale flash_attention and enable rpe.
sh scripts/train.sh -g 4 -d s3dis -c semseg-pt-v3m1-1-rpe -n semseg-pt-v3m1-0-rpe
# PPT joint training (ScanNet + S3DIS + Structured3D) and evaluate in ScanNet
sh scripts/train.sh -g 8 -d s3dis -c semseg-pt-v3m1-1-ppt-extreme -n semseg-pt-v3m1-1-ppt-extreme
# S3DIS 6-fold cross validation
# 1. The default configs are evaluated on Area_5, modify the "data.train.split", "data.val.split", and "data.test.split" to make the config evaluated on Area_1 ~ Area_6 respectively.
# 2. Train and evaluate the model on each split of areas and gather result files located in "exp/s3dis/EXP_NAME/result/Area_x.pth" in one single folder, noted as RECORD_FOLDER.
# 3. Run the following script to get S3DIS 6-fold cross validation performance:
export PYTHONPATH=./
python tools/test_s3dis_6fold.py --record_root ${RECORD_FOLDER}

# Scratched nuScenes
sh scripts/train.sh -g 4 -d nuscenes -c semseg-pt-v3m1-0-base -n semseg-pt-v3m1-0-base
# Scratched Waymo
sh scripts/train.sh -g 4 -d waymo -c semseg-pt-v3m1-0-base -n semseg-pt-v3m1-0-base

# More configs and exp records for PTv3 will be available soon.

Segmentação semântica interna

Modelo	Benchmark	Dados adicionais	NUM GPUS	Val Miou	Config	Tensorboard	Exp Registro
Ptv3	Scannet	✗	4	77,6%	link	link	link
Ptv3 + ppt	Scannet	✓	8	78,5%	link	link	link
Ptv3	Scannet200	✗	4	35,3%	link	link	link
Ptv3 + ppt	Scannet200	✓ (ft)	4
Ptv3	S3dis (área5)	✗	4	73,6%	link	link	link
Ptv3 + ppt	S3dis (área5)	✓	8	75,4%	link	link	link

Segmentação semântica ao ar livre

Modelo	Benchmark	Dados adicionais	NUM GPUS	Val Miou	Config	Tensorboard	Exp Registro
Ptv3	nuscênios	✗	4	80.3	link	link	link
Ptv3 + ppt	nuscênios	✓	8
Ptv3	Semantickitti	✗	4
Ptv3 + ppt	Semantickitti	✓	8
Ptv3	Waymo	✗	4	71.2	link	link	Link (somente log)
Ptv3 + ppt	Waymo	✓	8

*Os pesos do modelo liberado são treinados para v1.5.1, pesos para v1.5.2 e posterior ainda estão em andamento.

Modo ptv22

O PTV2 original foi treinado em 4 * RTX A6000 (memória 48G). Mesmo ativando o amplificador, o custo da memória do PTV2 original é ligeiramente maior que 24g. Considerando que as GPUs com memória 24G são muito mais acessíveis, sintonizei o PTV2 no ponto mais recente do ponto de vista e o tornei em máquinas 4 * RTX 3090.

PTv2 Mode2 permite o AMP e desativa a posição que codifica o multiplicador e o grupo agrupado linear . Durante nossas pesquisas adicionais, descobrimos que as coordenadas precisas não são necessárias para o entendimento da nuvem de pontos (substituindo coordenadas precisas pelas coordenadas da grade não influenciam o desempenho. Além disso, o Sparseunet é um exemplo). Quanto ao linear agrupado, minha implementação do linear agrupado parece custar mais memória do que a camada linear fornecida pelo Pytorch. Beneficiando -se da base de código e melhor ajuste de parâmetros, também aliviamos o problema de excesso de ajuste. O desempenho reproduzido é ainda melhor do que os resultados relatados em nosso artigo.

Exemplo de scripts em execução são os seguintes:

 # ptv2m2: PTv2 mode2, disable PEM & Grouped Linear, GPU memory cost < 24G (recommend)
# ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-pt-v2m2-0-base -n semseg-pt-v2m2-0-base
sh scripts/train.sh -g 4 -d scannet -c semseg-pt-v2m2-3-lovasz -n semseg-pt-v2m2-3-lovasz

# ScanNet test
sh scripts/train.sh -g 4 -d scannet -c semseg-pt-v2m2-1-submit -n semseg-pt-v2m2-1-submit
# ScanNet200
sh scripts/train.sh -g 4 -d scannet200 -c semseg-pt-v2m2-0-base -n semseg-pt-v2m2-0-base
# ScanNet++
sh scripts/train.sh -g 4 -d scannetpp -c semseg-pt-v2m2-0-base -n semseg-pt-v2m2-0-base
# ScanNet++ test
sh scripts/train.sh -g 4 -d scannetpp -c semseg-pt-v2m2-1-submit -n semseg-pt-v2m2-1-submit
# S3DIS
sh scripts/train.sh -g 4 -d s3dis -c semseg-pt-v2m2-0-base -n semseg-pt-v2m2-0-base
# SemanticKITTI
sh scripts/train.sh -g 4 -d semantic_kitti -c semseg-pt-v2m2-0-base -n semseg-pt-v2m2-0-base
# nuScenes
sh scripts/train.sh -g 4 -d nuscenes -c semseg-pt-v2m2-0-base -n semseg-pt-v2m2-0-base

Modo ptv21

PTv2 mode1 é o PTV2 original que relatamos em nosso artigo, o exemplo de scripts em execução é o seguinte:

 # ptv2m1: PTv2 mode1, Original PTv2, GPU memory cost > 24G
# ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-pt-v2m1-0-base -n semseg-pt-v2m1-0-base
# ScanNet200
sh scripts/train.sh -g 4 -d scannet200 -c semseg-pt-v2m1-0-base -n semseg-pt-v2m1-0-base
# S3DIS
sh scripts/train.sh -g 4 -d s3dis -c semseg-pt-v2m1-0-base -n semseg-pt-v2m1-0-base

Ptv1

O PTV1 original também está disponível em nossa base de código Pointcept. Não corro PTV1 há muito tempo, mas garanti que o exemplo de execução do script funcione bem.

 # ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-pt-v1-0-base -n semseg-pt-v1-0-base
# ScanNet200
sh scripts/train.sh -g 4 -d scannet200 -c semseg-pt-v1-0-base -n semseg-pt-v1-0-base
# S3DIS
sh scripts/train.sh -g 4 -d s3dis -c semseg-pt-v1-0-base -n semseg-pt-v1-0-base

Transformador estratificado

Requisitos adicionais:

pip install torch-points3d
# Fix dependence, caused by installing torch-points3d 
pip uninstall SharedArray
pip install SharedArray==3.2.1

cd libs/pointops2
python setup.py install
cd ../..

Uncomment # from .stratified_transformer import * no pointcept/models/__init__.py .
Consulte a instalação opcional para instalar dependência.
Treinamento com os seguintes scripts de exemplo:

 # stv1m1: Stratified Transformer mode1, Modified from the original Stratified Transformer code.
# PTv2m2: Stratified Transformer mode2, My rewrite version (recommend).

# ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-st-v1m2-0-refined -n semseg-st-v1m2-0-refined
sh scripts/train.sh -g 4 -d scannet -c semseg-st-v1m1-0-origin -n semseg-st-v1m1-0-origin
# ScanNet200
sh scripts/train.sh -g 4 -d scannet200 -c semseg-st-v1m2-0-refined -n semseg-st-v1m2-0-refined
# S3DIS
sh scripts/train.sh -g 4 -d s3dis -c semseg-st-v1m2-0-refined -n semseg-st-v1m2-0-refined

Spvcnn

SPVCNN é um modelo de linha de base de spvnas, também é uma linha de base prática para conjuntos de dados ao ar livre.

Instale o Torchsparse:

 # refer https://github.com/mit-han-lab/torchsparse
# install method without sudo apt install
conda install google-sparsehash -c bioconda
export C_INCLUDE_PATH= ${CONDA_PREFIX} /include: $C_INCLUDE_PATH
export CPLUS_INCLUDE_PATH= ${CONDA_PREFIX} /include:CPLUS_INCLUDE_PATH
pip install --upgrade git+https://github.com/mit-han-lab/torchsparse.git

Treinamento com os seguintes scripts de exemplo:

 # SemanticKITTI
sh scripts/train.sh -g 2 -d semantic_kitti -c semseg-spvcnn-v1m1-0-base -n semseg-spvcnn-v1m1-0-base

Octformer

Octformer do Octformer: Transformadores baseados em Octree para nuvens 3D Point .

Requisitos adicionais:

 cd libs
git clone https://github.com/octree-nn/dwconv.git
pip install ./dwconv
pip install ocnn

Uncomment # from .octformer import * em pointcept/models/__init__.py .
Treinamento com os seguintes scripts de exemplo:

 # ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-octformer-v1m1-0-base -n semseg-octformer-v1m1-0-base

Swin3d

Swin3d de Swin3d: um backbone de transformador pré -treinado para o entendimento da cena interna 3D .

Requisitos adicionais:

 # 1. Install MinkEngine v0.5.4, follow readme in https://github.com/NVIDIA/MinkowskiEngine;
# 2. Install Swin3D, mainly for cuda operation:
cd libs
git clone https://github.com/microsoft/Swin3D.git
cd Swin3D
pip install ./

Uncomment # from .swin3d import * em pointcept/models/__init__.py .
Pré-treinamento com os seguintes scripts de exemplo (pré-processamento Structured3D, consulte aqui):

 # Structured3D + Swin-S
sh scripts/train.sh -g 4 -d structured3d -c semseg-swin3d-v1m1-0-small -n semseg-swin3d-v1m1-0-small
# Structured3D + Swin-L
sh scripts/train.sh -g 4 -d structured3d -c semseg-swin3d-v1m1-1-large -n semseg-swin3d-v1m1-1-large

# Addition
# Structured3D + SpUNet
sh scripts/train.sh -g 4 -d structured3d -c semseg-spunet-v1m1-0-base -n semseg-spunet-v1m1-0-base
# Structured3D + PTv2
sh scripts/train.sh -g 4 -d structured3d -c semseg-pt-v2m2-0-base -n semseg-pt-v2m2-0-base

Ajuste fino com os seguintes scripts de exemplo:

 # ScanNet + Swin-S
sh scripts/train.sh -g 4 -d scannet -w exp/structured3d/semseg-swin3d-v1m1-1-large/model/model_last.pth -c semseg-swin3d-v1m1-0-small -n semseg-swin3d-v1m1-0-small
# ScanNet + Swin-L
sh scripts/train.sh -g 4 -d scannet -w exp/structured3d/semseg-swin3d-v1m1-1-large/model/model_last.pth -c semseg-swin3d-v1m1-1-large -n semseg-swin3d-v1m1-1-large

# S3DIS + Swin-S (here we provide config support S3DIS normal vector)
sh scripts/train.sh -g 4 -d s3dis -w exp/structured3d/semseg-swin3d-v1m1-1-large/model/model_last.pth -c semseg-swin3d-v1m1-0-small -n semseg-swin3d-v1m1-0-small
# S3DIS + Swin-L (here we provide config support S3DIS normal vector)
sh scripts/train.sh -g 4 -d s3dis -w exp/structured3d/semseg-swin3d-v1m1-1-large/model/model_last.pth -c semseg-swin3d-v1m1-1-large -n semseg-swin3d-v1m1-1-large

Classificador com reconhecimento de contexto

Context-Aware Classifier é um segmento que pode aumentar ainda mais o desempenho de cada espinha dorsal, como substituto do Default Segmentor . Treinamento com os seguintes scripts de exemplo:

 # ScanNet
sh scripts/train.sh -g 4 -d scannet -c semseg-cac-v1m1-0-spunet-base -n semseg-cac-v1m1-0-spunet-base
sh scripts/train.sh -g 4 -d scannet -c semseg-cac-v1m1-1-spunet-lovasz -n semseg-cac-v1m1-1-spunet-lovasz
sh scripts/train.sh -g 4 -d scannet -c semseg-cac-v1m1-2-ptv2-lovasz -n semseg-cac-v1m1-2-ptv2-lovasz

# ScanNet200
sh scripts/train.sh -g 4 -d scannet200 -c semseg-cac-v1m1-0-spunet-base -n semseg-cac-v1m1-0-spunet-base
sh scripts/train.sh -g 4 -d scannet200 -c semseg-cac-v1m1-1-spunet-lovasz -n semseg-cac-v1m1-1-spunet-lovasz
sh scripts/train.sh -g 4 -d scannet200 -c semseg-cac-v1m1-2-ptv2-lovasz -n semseg-cac-v1m1-2-ptv2-lovasz

2. Segmentação da instância

PointGroup

PointGroup é uma estrutura de linha de base para a segmentação de instância de nuvem de pontos.

Requisitos adicionais:

conda install -c bioconda google-sparsehash 
cd libs/pointgroup_ops
python setup.py install --include_dirs= ${CONDA_PREFIX} /include
cd ../..

Uncomment # from .point_group import * em pointcept/models/__init__.py .
Treinamento com os seguintes scripts de exemplo:

 # ScanNet
sh scripts/train.sh -g 4 -d scannet -c insseg-pointgroup-v1m1-0-spunet-base -n insseg-pointgroup-v1m1-0-spunet-base
# S3DIS
sh scripts/train.sh -g 4 -d scannet -c insseg-pointgroup-v1m1-0-spunet-base -n insseg-pointgroup-v1m1-0-spunet-base

3. Pré-treinamento

Contraste de cena mascarada (MSC)

Pré-treinamento com os seguintes scripts de exemplo:

 # ScanNet
sh scripts/train.sh -g 8 -d scannet -c pretrain-msc-v1m1-0-spunet-base -n pretrain-msc-v1m1-0-spunet-base

Ajuste fino com os seguintes scripts de exemplo:
Ativar PointGroup (aqui) antes de ajustar a tarefa de segmentação de instância.

 # ScanNet20 Semantic Segmentation
sh scripts/train.sh -g 8 -d scannet -w exp/scannet/pretrain-msc-v1m1-0-spunet-base/model/model_last.pth -c semseg-spunet-v1m1-4-ft -n semseg-msc-v1m1-0f-spunet-base
# ScanNet20 Instance Segmentation (enable PointGroup before running the script)
sh scripts/train.sh -g 4 -d scannet -w exp/scannet/pretrain-msc-v1m1-0-spunet-base/model/model_last.pth -c insseg-pointgroup-v1m1-0-spunet-base -n insseg-msc-v1m1-0f-pointgroup-spunet-base

Exemplo de log e peso: [Pré -Trein] [Semseg]

Treinamento rápido de pontos (ppt)

O PPT apresenta uma estrutura de pré-treinamento com vários dados e é compatível com várias estruturas e backbones de pré-treinamento existentes.

Treinamento conjunto supervisionado do PPT com os seguintes scripts de exemplo:

 # ScanNet + Structured3d, validate on ScanNet (S3DIS might cause long data time, w/o S3DIS for a quick validation) >= 3090 * 8 
sh scripts/train.sh -g 8 -d scannet -c semseg-ppt-v1m1-0-sc-st-spunet -n semseg-ppt-v1m1-0-sc-st-spunet
sh scripts/train.sh -g 8 -d scannet -c semseg-ppt-v1m1-1-sc-st-spunet-submit -n semseg-ppt-v1m1-1-sc-st-spunet-submit
# ScanNet + S3DIS + Structured3d, validate on S3DIS (>= a100 * 8)
sh scripts/train.sh -g 8 -d s3dis -c semseg-ppt-v1m1-0-s3-sc-st-spunet -n semseg-ppt-v1m1-0-s3-sc-st-spunet
# SemanticKITTI + nuScenes + Waymo, validate on SemanticKITTI (bs12 >= 3090 * 4 >= 3090 * 8, v1m1-0 is still on tuning)
sh scripts/train.sh -g 4 -d semantic_kitti -c semseg-ppt-v1m1-0-nu-sk-wa-spunet -n semseg-ppt-v1m1-0-nu-sk-wa-spunet
sh scripts/train.sh -g 4 -d semantic_kitti -c semseg-ppt-v1m2-0-sk-nu-wa-spunet -n semseg-ppt-v1m2-0-sk-nu-wa-spunet
sh scripts/train.sh -g 4 -d semantic_kitti -c semseg-ppt-v1m2-1-sk-nu-wa-spunet-submit -n semseg-ppt-v1m2-1-sk-nu-wa-spunet-submit
# SemanticKITTI + nuScenes + Waymo, validate on nuScenes (bs12 >= 3090 * 4; bs24 >= 3090 * 8, v1m1-0 is still on tuning))
sh scripts/train.sh -g 4 -d nuscenes -c semseg-ppt-v1m1-0-nu-sk-wa-spunet -n semseg-ppt-v1m1-0-nu-sk-wa-spunet
sh scripts/train.sh -g 4 -d nuscenes -c semseg-ppt-v1m2-0-nu-sk-wa-spunet -n semseg-ppt-v1m2-0-nu-sk-wa-spunet
sh scripts/train.sh -g 4 -d nuscenes -c semseg-ppt-v1m2-1-nu-sk-wa-spunet-submit -n semseg-ppt-v1m2-1-nu-sk-wa-spunet-submit

PointContrast

Conjunto de dados de par-pares de pré-processo e link (combinação de pares com o quadro RGB-D bruto de scannet, ~ 1,5T):

 # RAW_SCANNET_DIR: the directory of downloaded ScanNet v2 raw dataset.
# PROCESSED_SCANNET_PAIR_DIR: the directory of processed ScanNet pair dataset (output dir).
python pointcept/datasets/preprocessing/scannet/scannet_pair/preprocess.py --dataset_root ${RAW_SCANNET_DIR} --output_root ${PROCESSED_SCANNET_PAIR_DIR}
ln -s ${PROCESSED_SCANNET_PAIR_DIR} ${CODEBASE_DIR} /data/scannet

Pré-treinamento com os seguintes scripts de exemplo:

 # ScanNet
sh scripts/train.sh -g 8 -d scannet -c pretrain-msc-v1m1-1-spunet-pointcontrast -n pretrain-msc-v1m1-1-spunet-pointcontrast

Ajuste fino, consulte MSC.

Contextos de cena contrastivos

DataSet de pré-processo e scannet-par de scannet (consulte PointContrast):
Pré-treinamento com os seguintes scripts de exemplo:

 # ScanNet
sh scripts/train.sh -g 8 -d scannet -c pretrain-msc-v1m2-0-spunet-csc -n pretrain-msc-v1m2-0-spunet-csc

Ajuste fino, consulte MSC.

Reconhecimento

O Pointcept é projetado por Xiaoyang, nomeado por Yixing e o logotipo é criado por Yuechen. É derivado do Semseg de Hengshuang e inspirado por vários repositórios, por exemplo, Minkowskiengine, PointNet2, MMCV e Detectron2.

Expandir