导读：

由地平线和香港大学等高校最新的提出的基于的视觉语言模型（VLM）的类人端到端自动驾驶框架：HE-Drive。大量实验结果证明，它不仅在nuScenes和OpenScene数据集上取得了最好的性能(即平均碰撞率比VAD降低了71%)和效率（即比Sparse Drive快1.9倍），而且在真实世界数据上提供了最舒适的驾驶体验。

PART.01 背景简介

端到端自动驾驶范式以优化规划为目标，将感知、规划和轨迹评分任务整合成一个统一的模型，在推动自动驾驶技术方面显示出巨大的潜力（见图1a）。其中，基于模仿学习的运动规划器是从大规模的驾驶专家数据中学习驾驶策略，并采用基于学习的轨迹评分器从多个预测候选轨迹中选择最安全和最准确的轨迹来控制车辆。然而，现有的规划器和评分器面临的挑战是：

●生成时间不一致的轨迹，其中连续的预测在时间上是不稳定和不一致的；

●以及选择不舒适的轨迹，这些轨迹表现出持续制动，会导致失速或过度的转弯曲率。

▲图1｜HE-Drive系统表现

基于模仿学习的规划器生成的轨迹中的时间不一致性主要源于两个因素：时间相关性和泛化能力。首先，这些规划器依赖于当前帧过去几秒的信息来预测未来轨迹，忽视了连续预测之间的相关性。其次，它们的性能受到收集的离线专家轨迹质量的限制，使得它们对系统动态变化和分布外状态非常敏感，从而导致学习到的策略缺乏对未见场景的泛化能力。本文作者提出了一种基于扩散的规划器，能够生成具有强时间一致性的多模态轨迹。

此外，造成预测轨迹不舒适的关键原因是次优的轨迹评分器缺乏整个周期的评估能力，以及缺乏通用的指标来衡量轨迹的舒适度。本文提出了一种新的轨迹评分器和通用的舒适度度量指标，将基于规则的评分器的可解释性与VLM的适应性相结合，以调整驾驶风格（即激进或保守）进行整个周期评估。

▲图2｜HE-Drive框架概览

在本文中，作者引入HE-Drive（如图2所示）旨在解决上述两个问题。它利用稀疏感知（稀疏特征）检测、跟踪和映射驾驶场景，生成3D空间表示。这些表示被条件性地输入到基于扩散的运动规划器中，该规划器由条件去噪扩散概率模型（DDPM）驱动。最后，由VLM指导（即Llama 3.2V）的轨迹评分器从候选中选择最舒适的轨迹以控制车辆，从而确保人类般的端到端驾驶。

主要贡献有：

●提出一种基于扩散的运动规划器：它通过对稀疏感知网络提取的3D表示进行条件化，并结合历史预测轨迹的速度、加速度和偏航，生成时间一致且多模态的轨迹。

●一个即插即用的轨迹评分器：基于VLM的轨迹评分器和舒适度指标，填补了类人驾驶的空白，使其能够轻松地整合到现有的自动驾驶系统中。

●在开环和闭环基准测试中表现出色：HE-Drive在nuScenes和OpenScene数据集上实现了不错性能和效率，同时在真实世界数据集上提高了32%的舒适度，展示了其在各种场景中的有效性。

PART.02 相关工作

■2.1 端到端自动驾驶

端到端自动驾驶旨在直接从原始传感器生成规划轨迹。基于不同的评估方法分为开环和闭环系统。在开环系统中，UniAD提出了一个统一框架，将全栈驾驶任务与查询统一接口相结合，以改善任务之间的交互。VAD增强了规划的安全性和效率，其在nuScenes数据集上的表现证明了这一点，而SparseDrive利用稀疏表示来减轻模块化系统中固有的信息损失和错误传播，提高了任务性能和计算效率。在闭环评估中，VADv2通过概率规划推进了向量化自动驾驶，利用多视角图像生成车辆控制的动作分布，在CARLA Town05基准测试中表现优异。

■2.2 用于轨迹生成的扩散模型

用于图像合成中的扩散模型，已应用于轨迹生成。基于势能的扩散运动规划通过采用学习到的势能函数来构建适应性运动计划，能够应对复杂环境，展现了该方法的可扩展性和可迁移性。NoMaD和SkillDiffuser均呈现了统一框架，分别简化了目标导向的导航和基于技能的任务执行，其中NoMaD在导航结果上有所改进，SkillDiffuser则实现了可解释的高层指令跟随。

总之，基于模仿学习的模型可能由于固有的因果混淆而错误地将驾驶者的行为归因于错误的因果因素。相较之下，扩散模型通过在潜在空间中学习场景特征和驾驶者动作的联合分布，能够更好地捕捉潜在的因果关系，使模型能够正确将真实原因与相应的行为相联系。

■2.3 用于轨迹评估的大语言模型

基于规则的轨迹评分方法提供了强大的安全保证，但缺乏灵活性，而基于学习的方法在开环任务中表现良好，但在闭环场景中却存在问题。DriveLM将VLMs集成到端到端驾驶系统中，通过感知、预测和规划问答对建模图结构推理。然而，大型模型生成的结果可能存在幻觉，并需要进一步的策略以确保在自动驾驶中的安全应用。

PART.03 方法精析

HE-Drive的关键组件（如图2所示）主要包含：稀疏感知、基于扩散模型的运动规划器和由VLMs指导的轨迹评分器。

■3.1 稀疏感知

■3.2 基于扩散的运动规划器

下图展示了基于扩散的运动规划器的整体流程。

运动规划器的扩散策略概览

▲图3｜VTS概览

■3.3 基于VLMs的轨迹评分器

Comfort Cost由以下Cost组成：

▲表1｜规则评分器的权重值

VLMs帮助驾驶风格：VLM指导的轨迹评分器（如图3所示）由两个阶段组成。在第一阶段，需要一个包含标注周边图像的数据集，其中包括当前驾驶场景的描述、周围主体（即人类和车辆）的运动状态，以及当前的驾驶风格（即激进或保守）和权重调整值。通过迭代对话，Llama 3.2V吸收上下文信息，减少模型幻觉（model hallucinations）。

在第二阶段，使用GPT-4o生成一系列用于视觉问答（VQA）的提示模板。利用交通模式中固有的时空稳定性，以每五秒间歇性地激活Llama 3.2V，以细化驾驶行为。该模型在处理新图像时评估驾驶上下文，并为规则基系统中的预定义安全与舒适参数校准评分权重。这种方法允许对成本权重进行精确调整，增强驾驶风格对不同场景的响应能力。

■3.4 端到端的驾驶舒适性指标

为了应对现有端到端方法中缺乏通用舒适度评估指标的问题，作者提出了一种通用指标来评估预测轨迹的舒适度和人类相似性。该舒适度指标旨在量化预测轨迹与真实轨迹之间的相似性，考虑动态可行性、颠簸和轨迹平滑度等因素。

PART.04 实验结果

■4.1 实验设置

数据集：实验在三个具有挑战性的数据集上进行，即nuScenes数据集和用于开放环路测试的真实世界数据集，以及用于闭环评估的OpenScene数据集。

实施细节：HE-Drive的训练过程分为多个阶段。首先，根据SparseDrive提出的两阶段方法训练稀疏感知组件，依据不同的感知主干网络，将其分为HE-Drive-S和HE-Drive-B。稀疏感知训练第二阶段的输出作为运动规划器的输入。运动规划器采用基于卷积网络的扩散策略生成准确且具有时间一致性的轨迹。最后，对整个HE-Drive系统进行端到端的训练。

■4.2 在nuScenes上的实验结果

如表2所示，HE-Drive模型展示了相较于以往基于相机和激光雷达的方法的优越性能和效率。该模型在采用资源高效的视觉主干的同时，实现了最低的L2误差。具体而言，HE-Drive在均值L2误差上显著降低，减少幅度达到17.8%，同时碰撞率平均降低了68%。这一结果源于HE-Drive预测的优异强时间一致性。当结合更强大的视觉主干和尖端的扩散政策能力时，HE-Drive将平均L2误差和碰撞率进一步降低至0.58和0.06。

▲表2｜在nuScenes数据集上的规划结果

▲图4｜Llama 3.2V在nuScence定性实验结果

■4.3 消融实验

本文使用HE-Drive-S作为消融实验的默认模型。

▲表3｜不同规划器的消融实验结果

VLM的必要性：将VLM引入轨迹评分机制主要旨在促进一种持续的评估方法，以细化驾驶行为。缺乏VLM显著影响安全指标，3秒碰撞率大约增加了2.6倍（表3）。这一现象凸显了仅依赖规则基础评分的局限性，因为它难以辨别不同场景之间的细微差异，从而使轨迹确定变得复杂。

轨迹一致性的关键因素：通过历史速度和加速度数据丰富基于扩散的运动规划器，缩小了观察到的2秒和3秒轨迹预测之间的L2范数差异。当这些动力学参数作为条件变量集成到DDPM中时，可以确保生成一致的轨迹。这种一致性不仅取决于位置坐标，还扩展到每个导航点的速度和加速度。此外，利用历史最佳预测轨迹的时间相关性作为DDPM的条件元素证明是显著有利的，其省略可能导致L2范数增加1.1倍（表3）。

锚点数量的必要性：对规划锚点的数量进行了实验。如表4所示，随着规划锚点评估数量的增加，规划性能持续改善，直到在8个模式处饱和，再次证明了多模态扩散规划的重要性。

▲表4｜锚点数量的消融实验结果

■4.4 在Real-World上的实验结果

真实世界数据集的端到端规划结果如图5a所示。HE-Drive生成了一致的多模态轨迹，并使用轨迹评分器选择了成本最低的最合适轨迹。紫色和绿色轨迹由于偏离目标点和在转向操作时舒适度降低而具有较高的成本。

这一定性结果表明，基于规则的评分器优先考虑安全性，并且具有可解释性。此外，舒适度指标的计算（图6a）显示，HE-Drive的1秒轨迹段舒适度达到了100%，比VAD高出20%，而整体的3秒轨迹舒适度也高于VADv2，这表明本文的评分器在长期轨迹评估中的持久能力和效率。

▲图5｜规划生成和轨迹评分过程

▲图6｜舒适性和效率结果对比

■4.5 在OpenScene上的实验结果

在闭环数据集OpenScene上的结果（表5）突显了HE-Drive相对于基准模型的绝对优势。在性能方面，该评分比HyDra-MDP-V8192高出2.65%。在效率方面，HE-Drive的性能优于其PDM-Closed和TransFuser。它的每秒帧数（FPS）比PDM-Closed高出2.56倍。此外，HE-Drive在FPS上比TransFuser高出14.01%（见图6b）。值得注意的是，HE-Drive的训练周期仅为22小时，既在执行方面更快，也在训练时间上更高效。

▲表5｜OpenScene数据的性能表现

PART.05 总结

本文提出的HE-Drive，它是一种以类人为中心的端到端自动驾驶系统，并通过集成稀疏感知模块、基于扩散的运动规划器以及一个由Llama 3.2V驱动的轨迹评分系统，用于解决现有方法在实现时间一致性和乘客舒适度方面的局限性。大量的实验表明，它在开放环路和闭环数据集中的表现优于现有的方法，生成了具有更好时间一致性和乘客舒适性的类人规划轨迹。

本文转载自：腾讯网

作者：智驾人六耳

原文链接：https://news.qq.com/rain/a/20241105A034XD00?c_buffer=aid%3D20241105A034XD00%3Bappver%3D7.5.30%3Bts%3D1730779022671&sign=AAwim3K6lLbYyCPDcr4DB%2FJ59bhc0x63pcvk1K8oUCdc8AOv%2FTGGI92FsV6EreLS%2FKazRWN81TRY8juHlKLqzZZWQUGr%2F%2Bb1TKZ4N4JKuAQbUf61h9H3yv8YL%2FUSkxoW8I2L1o8R&shareto=wx&openid=o04IBANh_gtw9YSchdMt2KQHQJhM&key=daf9bdc5abc4e8d0c5792bc82bd9d9c28f3c98189534a37447941aef7e280ee640626e64696494dd06bbbcacab2fe2463f29af5b5d893e1fc416812d1e858a9850eeedf2c153881cc0c3a6f9149d93dd3e81b928a38a4c222dfc887cb4d7fe6da7d7d4d10baf3377dd5db0021ae7d3ddbc9945410a8ce0e4a021f16fb66907a5&version=63090819&devicetype=Windows+11+x64&wuid=oDdoCt0uxbV3KAzzuDhwMcGIekEU&cv=0x63090819&dt=15&lang=zh_CN&suid=&media_id=

关于端到端，地平线丢出一关键招数