RoMe：通过网格表示实现大规模路面重建

RoMe: Towards Large Scale Road Surface Reconstruction via Mesh Representation

在自动驾驶领域，高效准确的路面重建至关重要，特别是在设计训练和验证BEV感知相关的任务时，更加凸显了大规模路面重建的价值。RoMe是一种专门为大规模路面重建而设计的全新框架。RoMe利用网格表示准确重建路面，并且与语义无缝对齐。RoMe提出Waypoint采样，运用分治思想提高计算效率，不仅如此，RoMe还采用可外部优化模块，增加外部校准过程中的鲁棒性。RoMe 在速度、准确性和稳健性方面的优势。例如，从数千张图像中恢复 600*600 平方米的路面仅需 2 个 GPU 小时。

引言

RoMe是一种仅依赖于图像的大规模路面重建的系统方法。在RoMe中，构思了一种道路网络，将3D路面描绘为具有一定细微高度的平滑网格。RoMe根据一系列的路面图像制作出全面的3D道路网格，并且辅以语义解释，每个网格顶点都封装了海拔高度，颜色和语义等详细信息。RoMe的大估摸路面重建效果如下图所示。

RoMe总体思路

RoMe的总体思路包括三个部分

（1）Waypoint 采样：采用分而治之的策略，迭代的重建路面子区域，旨在加快重建的过程。

（2）网格初始化：网格中的每个顶点都由其位置、颜色和语义进行编码，并且每个顶点的海拔高度都通过MLP网络进行建模。

（3）优化：分为外部优化和网格优化两个优化策略。

1. 网格初始化

网格初始化依赖于ORB-SLAM2估计的相机位姿，然后采用语义分割方法Mask2Former来生成道路、路肩、标志线和车辆等语义信息。这些语义信息还用于掩盖车辆和行人等同台信息，保证整体道路信息的一致性。

如下图所示，初始化的网格M由等边三角形组成，每个面具有三个顶点，每个顶点p都包括位置（x，y，z）、颜色（r，g，b）和语义信息等属性，并将位置信息（x，y）编码输入到MLP网络中用于预测海拔高度elevation。

2. Waypoint 采样

为了加快大面积道路的重建，RoMe采用Waypoint采样来提高网格初始化的效率。Waypoints就是RoMe中将路面划分为子区域以加快重建速度的点。如下图所示，绿线描绘相机的路径。红色和蓝色框表示相邻的子区域，相应的红色和蓝色点表示Waypoint样本。

Waypoint采样的核心原则是分治思想，并不是一次性重建整个路面，而是将大面积区域划分为以Waypoint中心的子区域。首先单独重建子区域，然后一旦处理完所有的子区域，就会无缝合并为完成的路面。这种方法不仅提高了计算的并行成都，并且还为每个子区域提供了详细的表示。如下图所示，摄像机轨迹由绿线表示。不同颜色的点及其相关框表示各个时期的采样Waypoint及其相应的子区域。

3. 优化

网格优化策略包含两个方面，分别是外部优化和网格优化。其中外部优化旨在提高RoMe在各种相机设置上的鲁棒性，网格优化关注颜色和语义，方便将网格渲染成具有相应语义的RGB图像。

（1）外部优化

外部优化是指定义详细在世界坐标系中的位置和方向参数。它们捕获相机的局部坐标系和全局固定坐标系之间的关系。

在RoMe中，将外部相机表示为一个变换矩阵，通过优化旋转角度和归一化旋转轴计算的倾斜矩阵和在欧几里得空间中的平移参数等外在参数，实现更快更容易地收敛。

（2）网格优化

网格优化需要将网格渲染为具有相应语义的RGB图像。首先将网格M输入到渲染器中，以获得第j个相机位姿Πj的图像视图渲染结果。渲染的结果包括RGB图像、语义图像、深度图像和监督区域相应的轮廓图像。在训练过程中，每个顶点都会通过来自不同视图的多个图像进行优化。一旦所有网格得到适当优化，就可以获得最终的网格（具有海拔高度、颜色和语义）来表示整个路面。

实验过程

RoMe在两个著名的驾驶数据集nuScenes和KITTI上进行了实验，实验环境为具有单个RTX-3090GPU的Linux服务器。如下图所示，实验细化为网格优化、外部优化和其他影响重建效果的参数三个部分。并将 RoMe 与 COLMAP 在质量上进行比较，与vanilla NeRF 在单个场景中的新颖视图合成任务上进行比较。对从 nuScenes 中选择的 100 个场景进行多场景验证实验，测试RoMe 在合并多个场景重建更大区域方面的稳健性和效率。

1. 网格和外部优化

（1）网格优化

网格优化由 RGB、语义和高程优化组成，RGB 和语义优化使用可学习参数的表示，因为它们具有高频细节。在高程优化方面，采取两种方法进行对比。第一种方法将BEV elevation视为独立的可优化参数，类似于RGB和语义，另一种方法使用MLP表示。如下图所示，第二种方法产生了更好地结果。

（2）外部优化

RoMe 可以恢复路面海拔高度并细化相机外部属性，从而实现更精确的重建。实验选取nuScenes中的scene-0865 选择一个短片。

如上表所示，实施外部优化和高程优化可以显著增强路面重建的效果。更加直观的效果如下图所示。增强的高程优化和外部优化可以显著改善 RGB 和语义的对齐。

（3）其他参数

为了评估提出的Waypoint采样方法的效率，根据 KITTI 数据及构建了一个跨越 200 * 200 平方米的区域。通过Waypoint采样，实现了 2 倍的加速并减少了 GPU 内存消耗，同时保持相同的重建质量，如下表所示。

为了在训练速度和重建质量之间取得平衡，实验使用 nuScenes 数据集中的 scene-0391 进行了 BEV 分辨率实验。结果如下图所示。大于或等于 0.2m/像素的 BEV 分辨率会导致重建模糊。相反，小于或等于 0.05m/像素的分辨率会增加不必要的计算开销。因此，0.1m/像素的分辨率是质量和速度权衡的最佳选择。

2. 效果比较

（1）与COLMAP比较

如图所示，RoMe对移动物体的鲁棒性超过COLMAP，实验从 nuScenes数据集中选择了 scene-0655，并屏蔽了所有移动障碍物。由 COLMAP生成的 BEV 网格在遇到移动物体时往往会产生孔洞，相比之下，RoMe始终会生成完整的道路网格。此外，RoMe可以同时生成 BEV 语义。

（2）与NeRF比较

实验从nuScenes数据集的scene0990中选择了一个短片，确保它包含非关键帧以实现更高的图像帧速率，仅使用前置摄像头的图像。测试RoMe与普通NeRF的功能进行比较。

如下图显示了RGB重建以及分割结果。RoMe提供了更真实的RGB重建和精确的语义结果。黄色框中突出显示的道路元素比普通NeRF中的道路元素更加明显。在70 * 70平方米的区域中，RoMe在大约 8 分钟内收敛，而普通NeRF需要20小时。

3. RoMe稳健性验证

通过对从 NuScenes数据集中选择的 100 个场景进行实验来评估 RoMe的稳健通过对从 NuScenes数据集中选择的 100 个场景进行实验来评估 RoMe的稳健性。RoMe可以无缝融合不同的场景，只要它们有共同的位置。下图显示了合并多个场景的结果。Scene-1 和 Scene-2 都是由四个个体组成的。

将 RoMe应用于野生数据，展示了它的多功能性。下图展示了RoMe重建的交叉路口。渲染语义和源 RGB 图像之间的一致性是明显的，证明了RoMe的精度，有助于直接在道路网格上轻松注释 BEV 车道、路缘石、箭头、人行横道和其他静态道路元素。

为了进一步说明学习BEV高程的强度，实验选择了重庆的一个陡坡场景。下图显示了RoMe的重建。左侧代表 BEV 语义，右侧展示 BEV 标高，范围从 -0.8 米到超过 7 米。尽管海拔发生了显著变化，RoMe 仍提供了清晰准确的重建。

下图进一步证明了RoMe的准确性。重建陡坡上的重投影可视化。手动标记的车道和箭头与源图像中的路标和车道无缝对齐，验证了3D路面重建的准确性。

结论

本研究深入探讨了路面重建的复杂性，提出了 RoMe 作为专为广阔环境量身定制的突破性解决方案。RoMe利用网格表示来确保路面的稳健重建，并与语义数据无缝对齐。RoMe的评估覆盖了 600*600 平方米的广阔区域，涵盖了 nuScenes 和 KITTI 等著名数据集，证明了RoMe在准确性、速度和弹性方面的优越性。特别是与COLMAP和普通 NeRF 等现有方法相比，RoMe不仅采用WayPoint采样提高了并行计算能力，优化了计算资源，而且在大规模道路中间中表现出突出的适应性和鲁棒性。不仅如此，RoMe还引入了外部优化模块解决了路面重建由于外部校准失配而导致的不理想结果。在自动驾驶的背景下，精度至关重要。 RoMe 作为一种变革性解决方案出现。它提供准确重建的能力为自动化标签过程铺平了道路，这是实现全自动驾驶汽车的关键一步。