地平线双目深度估计参考算法StereoNetPlus优化思路解读

【参考算法】地平线双目深度估计参考算法StereoNetPlus-v1.2.1

1. 引言

本文将介绍地平线基于公版的双目深度估计算法StereoNet做的优化设计。首先介绍了双目深度估计的原理以及双目点云和Lidar点云的对比，然后由公版StereoNet的介绍切入到地平线参考算法的针对性优化，最后对可视化结果进行了解读。

2.双目深度估计原理

2.1 基本假设

假设双目系统是标准形式，即：

两相机内参数相同，即焦距、分辨率等参数一致；
两相机光轴平行；
成像平面处于同一水平线；

假设以左相机坐标系为主坐标系，也就是说两相机只存在X轴方向上的平移变换。

2.2 几何法

P是待测物体上的某一点，
O_R与O_T分别是两个相机的光心，
p、p'：点P在两个相机感光器上的成像点，相机的成像平面经过旋转后放在了镜头前方
f为相机焦距，B为两相机中心距，Z为我们想求得的深度信息。

公式中，焦距f和摄像头中心距B可通过标定得到，因此，只要获得了视差d=X_R−X_T，就可以计算出深度Z。

视差是同一个场景在两个相机下成像的像素的位置偏差。

2.3 相机参数推导法

由基本假设可以可知，左右相机内参相等，且左右相机只存在X轴方向的平移运动。那么有：

相机模型和各种坐标系介绍：https://blog.csdn.net/qq_40918859/article/details/122271381

2.4 双目点云和激光雷达点云的比较

参考链接：https://www.zhihu.com/question/264726552

感知距离

双目模型在近处比较有优势（几十米），在远处的时候类似于单目，而Lidar感知距离可以达到200m+（210-250）。

点云密度

双目的点云比Lidar要稠密。双目模型估计出的深度是像素级别的，camera分辨率越大，点云就越稠密。而Lidar的采样点覆盖相对于场景的尺度来讲，具有很强的稀疏性。

精度

Lidar是主动方法，双目是被动方法，而且双目是根据模型估计视差计算出的深度，存在一定的标定、安装误差以及深度失真问题，所以其输出的深度信息的精度是不及Lidar的，但是需要注意的是Lidar受天气影响更大。

双目测距在某些场景下，深度图边界容易失真，错误主要体现在以下三方面。

缺失(Missing)：边界缺失是指高质量RGB图像中存在真实对象边界，但在深度图中这些边界丢失了；
虚假(Fake)：虚假边界是指在深度图中存在对象边界，但在RGB图像中不存在真实边界的情况；
错位(Misaligned)：RGB图像和深度图中均有真实边界，但彼此没有很好的对齐；
黑夜不work

3. StereoNet

3.1 基本情况

dataset: SceneFlow
Input shape: 540x960
精度:

3.2 网络结构

1.特征提取

采用共享权重的孪生神经网络提取双目图像的特征，使用K个下采样block进行高层特征提取；

2.Cost volume构建

Cost volume是在双目匹配中用于衡量左右视图的相似性的张量。
特征下采样之后，在低分辨率下计算cost volume，输出的shape是

Cost volume的计算方式为concat，即将左右视图的特征图在通道维进行concat：

通过concat获得的cost volumes不包含有关特征相似性的信息，因此在后续模块中需要更多参数来学习相似度函数。
maxdisp是预先设定的最大视差，也就是模型能预测到的最大视差。

3.Cost volume优化和计算视差

获得4D cost volume，使用conv3d进行优化。

然后基于优化后的cost volume获得低分辨率下的视差图。cost volume优化后得到Nx1xDxHxW大小的特征图，然后使用softmax得到在每个视差值下的概率。

4.StereoNetPlus

4.1总体结构

4.2模型优化点

4.2.1 特征提取

使用MixVarGENet+FPN来提取双目图像的多尺度特征；

4.2.2 Cost Volume构建和优化

采用AANet的思想，基于相关性构建多尺度cost volume，并进行尺度内和跨尺度融合，最终输出1/8原图尺度下的cost volume。

AANet网络

作者通过设计两个有效且高效的成本聚合模块:自适应同尺度聚合模块(Adaptive Intra-Scale Aggregation)

和自适应跨尺度聚合模块(Adaptive Cross-ScaleAggregation)来实现成本聚合。并且使用特征相关性而不是concat的方式构造多尺度Cost Volume。

cost volume构建

使用1/8，1/16, 1/32原图尺度下的特征图构造多尺度cost volume；

ISA

在视差非连续时，边缘位置总会有一圈连续的错误匹配值，为了缓解这种edge-fattening问题，使用3个残差模块 BasicResBlock对每个尺度的cost volume进行聚合。

CSA

双目图像进行下采样后，在相同的patch尺寸下，纹理信息将更具鉴别性，所以跨尺度成本聚合算法中引入了多尺度交互。最终的cost volume是通过对不同尺度的成本聚合结果进行自适应组合得到的，公式如下：

$$\hat{C}^s$$: 是跨尺度cost聚合后的最终cost volume;
$$\tilde{C}^k$$: 尺度为k的cost volume的尺度内聚合；
$$f_k$$:用于实现每个尺度的cost volume的自适应组合的函数;

$$f_k$$取决于cost volume $$\tilde{C}^k$$和$$\hat{C}^s$$的分辨率，对于cost volume $$\hat{C}^s$$：

下面将对公式中的3种情况进行说明：

$$\mathcal{I}$$:identity函数；
$$(s-k)stride-2 3\times3 convs$$：为了保证不同尺度的cost volume分辨率一致，使用（s-k）个stride为2 的conv3x3做下采样；
$$upsampling \bigoplus 1\mathrm{x}1 conv$$：采用双线性上采样将cost volume到相同的分辨率，然后采用1x1卷积对齐通道数；