該存儲庫包含“金字塔立體聲匹配網絡”論文(CVPR 2018)的代碼(在Pytorch中),Jia-Ren Chang和Yong-Sheng Chen。
2020/12/20:更新PSMNET:現在支持Torch 1.6.0/Torchvision 0.5.5和Python 3.7,刪除了不一致的凹痕。
2020/12/20:我們提出的實時立體聲可以在此處實時立體聲找到。
@inproceedings{chang2018pyramid,
title={Pyramid Stereo Matching Network},
author={Chang, Jia-Ren and Chen, Yong-Sheng},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
pages={5410--5418},
year={2018}
}
最近的工作表明,可以從立體聲對的深度估計可以作為監督的學習任務配製,以通過卷積神經網絡(CNN)解決。但是,當前的體系結構依賴於基於補丁的暹羅網絡,缺乏利用上下文信息以在不張力區域查找信件的手段。為了解決這個問題,我們提出了PSMNet,這是一個由兩個主要模塊組成的金字塔立體聲匹配網絡:空間金字塔池和3D CNN。空間金字塔池模塊通過在不同尺度和位置匯總上下文以形成成本量來利用全球上下文信息的能力。 3D CNN學會了使用堆疊的多個沙漏網絡與中間監督相結合的成本量。

Usage of Scene Flow dataset
Download RGB cleanpass images and its disparity for three subset: FlyingThings3D, Driving, and Monkaa.
Put them in the same folder.
And rename the folder as: "driving_frames_cleanpass", "driving_disparity", "monkaa_frames_cleanpass", "monkaa_disparity", "frames_cleanpass", "frames_disparity".
例如,使用以下命令在場景流程上訓練PSMNET
python main.py --maxdisp 192
--model stackhourglass
--datapath (your scene flow data folder)
--epochs 10
--loadmodel (optional)
--savemodel (path for saving model)
作為另一個示例,請使用以下命令在2015年對psmnet進行捕獲
python finetune.py --maxdisp 192
--model stackhourglass
--datatype 2015
--datapath (KITTI 2015 training data folder)
--epochs 300
--loadmodel (pretrained PSMNet)
--savemodel (path for saving model)
您還可以在Run.sh中看到這些示例。
使用以下命令在Kitti 2015測試數據上評估受過訓練的PSMNET
python submission.py --maxdisp 192
--model stackhourglass
--KITTI 2015
--datapath (KITTI 2015 test data folder)
--loadmodel (finetuned PSMNet)
※注意:預驗證的模型保存在.tar中;但是,您不需要解開它。使用Torch.load()加載它。
更新:2018/9/6我們發布了預先訓練的Kitti 2012模型。
更新:2021/9/22使用Torch 1.8.1的驗證模型(先前的型號重量是訓練的火炬0.4.1)
| Kitti 2015 | 場景流 | Kitti 2012 | 場景流(火炬1.8.1) |
|---|---|---|---|
| Google Drive | Google Drive | Google Drive | Google Drive |
python Test_img.py --loadmodel (finetuned PSMNet) --leftimg ./left.png --rightimg ./right.png

※請注意,報告的3-PX驗證錯誤是使用Kitti的官方MATLAB代碼計算的,而不是我們的代碼。
排行榜鏈接
| 方法 | d1-all(全部) | D1-ALL(NOC) | 運行時間 |
|---|---|---|---|
| psmnet | 2.32% | 2.14% | 0.41 |
| IRESNET-I2 | 2.44% | 2.19% | 0.12 |
| GC-NET | 2.87% | 2.61% | 0.90 |
| MC-CNN | 3.89% | 3.33% | 67 |
我們可視化PSMNET,完整設置和基線的不同設置的接收場。
完整設置:擴張的Conv,SPP,堆疊的沙漏
基線:沒有擴張的轉換,沒有spp,沒有堆疊的沙漏
計算了圖像中心的像素的接收場,由紅十字會指示。

歡迎任何討論或疑慮!