本文是一篇关于自动驾驶领域中视觉-语言-动作模型的综述论文,系统梳理了该方向的发展历程、核心架构、数据集、评估方法以及未来挑战。

论文:https://arxiv.org/pdf/2512.16760
GITHUB: https://github.com/worldbench/awesome-vla-for-ad
项目主页:https://worldbench.github.io/vla4ad

传统自动驾驶系统通常采用模块化的“感知-决策-动作”流水线,依赖于人工设计的接口和基于规则的组件,在复杂或长尾场景中容易失效。其级联设计还会传播感知误差,影响下游规划与控制。视觉-动作模型通过学习从视觉输入到动作的直接映射,部分解决了这些问题,但仍存在不透明、对分布变化敏感、缺乏结构化推理或指令跟随能力等局限。近年来,大型语言模型和多模态学习的进展推动了视觉-语言-动作模型的出现,这类框架将感知与基于语言的决策相结合。通过统一视觉理解、语言推理和可执行输出,VLA模型为驾驶策略提供了一个更可解释、更易泛化、更符合人类习惯的新范式。
本文系统梳理了自动驾驶中VLA模型的发展脉络,将其组织为两大主要范式:端到端VLA(在单一模型中整合感知、推理和规划)和双系统VLA(将慢速推理与快速安全关键执行分离)。文章进一步区分了文本与数值动作生成器、显式与隐式引导机制等子类,总结了用于评估VLA驾驶系统的代表性数据集与基准,并指出了包括鲁棒性、可解释性和指令忠实度在内的关键挑战与未来方向。

1 引言
完全自动驾驶长期以来是AI与机器人领域的核心目标。传统系统采用模块化流水线,各组件独立优化,虽然在结构化环境中表现良好,但在复杂、动态和长尾场景中适应性有限。级联设计容易导致误差跨阶段传播。
为了缓解这些问题,研究逐渐转向端到端自动驾驶,其中视觉-动作模型通过模仿学习和强化学习直接将原始感知输入映射到控制命令或轨迹点。尽管VA模型展示了从数据中直接学习复杂驾驶策略的能力,但仍存在根本性限制:它们通常是“黑箱”,可解释性差;在训练数据不足的长尾场景中泛化能力脆弱;缺乏思维链推理和上下文思考能力;无法理解自然语言指令,人车交互存在隔阂。
大型语言模型和多模态大模型的兴起催生了视觉-语言-动作模型。VLA模型将视觉语言模型骨干与动作预测头相结合,能够直接从多模态输入(视觉+语言)映射到可执行的驾驶动作。通过联合建模感知、语言理解和决策,VLA框架旨在提供类人的推理、可解释性和指令跟随能力。
VLA模型主要分为端到端VLA(单一模型实时推理与行动)和双系统VLA(高层决策与底层轨迹执行分离)。后者借鉴了“快与慢思考”理论,由VLM负责慢速、审慎的推理,由专用规划器负责快速、低延迟的执行。

2 VLA模型基础
VLA框架利用大规模视觉语言模型来理解复杂驾驶场景并生成可执行动作。其基本公式可表示为:a_t = H(F(x|θ)),其中x是多模态输入,F是VLM骨干,H是动作生成头。
2.1 输入模态
输入包括四类:
- 传感器输入:如环视RGB图像和LiDAR点云,提供原始环境信息。
- 潜在场景表示:如鸟瞰图特征和占据栅格,是融合多模态传感器数据后的中间表示。
- 语言输入:高层文本指令或任务描述(如“在下一个路口左转”),使模型具备VLA能力。
- 车辆状态信息:自车当前动态状态,如速度、加速度、转向角等。
2.2 VLM骨干
VLM骨干是系统的核心推理引擎,通常包含视觉编码器(如ViT)和LLM解码器,通过桥接网络或统一的多模态token建模机制对齐视觉与语言特征。它有两种使用方式:
- 直接动作生成:VLM直接通过其语言头或附加的小型头输出动作,实现完全端到端的映射。
- 引导生成:VLM作为高层推理模块,产生中间引导(文本理由或结构化潜在意图),由下游规划器转换为底层动作。这种“慢思考+快执行”架构提高了可解释性,并允许规划器强制执行物理可行性和安全约束。
2.3 动作预测头
动作头将VLM的潜在表示转换为动作输出,主要分为四类:
语言头:直接利用VLM的文本生成能力,在语言空间中产生动作(如“左转”或离散化的动作token)。
回归头:通过解码器和回归器(如MLP)直接预测连续值(如转向角、轨迹点)。
轨迹选择头:评估一组候选轨迹,并根据学习的成本函数选择最优轨迹。
轨迹生成头:通过概率生成模型(如扩散模型、变分自编码器)合成动作,能捕捉未来分布的多模态性和不确定性。
2.4 驾驶中的动作表示
动作空间定义了模型可生成的车辆控制输出,主要有四种表示范式:
离散轨迹表示:用一系列空间路径点表示未来路径。
连续轨迹表示:用连续函数(如速度曲线、曲率曲线)参数化车辆运动。
直接控制表示:直接输出低层车辆控制命令(如转向、油门、刹车)。
语言表示:利用VLM的自然语言能力,通过文本描述表达驾驶动作

3 视觉-动作模型
VA模型是自动驾驶早期且极具影响力的研究方向,核心思想是将感知观察直接映射到驾驶动作,避免显式的感知-预测-规划分解。其训练范式主要包括模仿学习和强化学习。世界模型进一步扩展了这一范式,通过模拟场景动态来支持策略学习。

3.1 端到端模型
端到端模型学习一个单一神经网络,将原始或中间传感器观察映射到动作或规划轨迹。根据是否使用感知监督,可分为:
仅动作模型:传感器输入直接输入网络输出低层动作。主要通过模仿学习(行为克隆)或强化学习进行策略学习。虽然简单高效,但对分布偏移和因果混淆敏感。
感知-动作模型:采用两阶段范式,感知任务(如检测、跟踪)监督并约束轨迹预测。通常采用密集的BEV表示或稀疏的查询表示。前者通过统一的俯视图特征进行轨迹规划,计算量大;后者使用潜在查询聚合图像特征,显著降低推理延迟,但可能限制长时程推理。

3.2 世界模型
世界模型旨在预测不同自车动作下驾驶场景的演变,通过联合建模场景动态和自车运动,为学习安全、长时程的驾驶策略提供强大机制。根据预测模态和表示粒度可分为三类:
- 基于图像的世界模型:生成以自车动作为条件的未来帧,使智能体能够“想象”场景演变。主要利用扩散模型或自回归模型合成逼真、时序一致的视频。提供逼真的模拟,但对2D外观的依赖限制了显式的3D推理。
- 基于占据的世界模型:将驾驶场景表示为时空占据栅格,并预测其在不同动作下的演变。关注自由空间、障碍物和智能体的几何与语义,而非原始像素。提供强大的几何保真度和显式的自由空间推理,但依赖昂贵的3D标注。
- 基于潜在表示的世界模型:直接在压缩的潜在空间中预测未来动态,避免像素级生成的计算开销。通过操作高层特征捕捉行为模式和长时程依赖,但通常需要2D/3D标注的辅助监督。
3.3 VA模型与VLA模型相比的局限性
尽管VA模型仍被广泛部署,但在复杂、模糊或长尾场景中存在结构性限制,而这些正是VLA模型的优势所在:
- 可解释性有限:VA模型几乎不提供决策过程的洞察,而VLA模型可以通过语言阐述推理步骤或解释。
- 泛化能力弱:VA策略缺乏广泛的世界知识,常需针对特定环境重新训练。VLA模型利用大规模预训练,在分布偏移和长尾事件中泛化更好。
- 无思维链推理:VA模型直接从像素映射到动作,难以进行显式推理或上下文分析。VLA模型天然支持逐步推理。
- 无语言理解能力:VA系统无法理解自然语言表达的人类指令或高层目标。VLA模型自然地整合此类输入以指导规划和决策。


4 视觉-语言-动作模型
VLA模型通过将视觉感知与大型视觉语言模型的多模态推理能力相结合,扩展了VA范式。凭借思维链式推理和广泛的世界知识,这类模型在处理罕见、模糊和长尾驾驶场景时尤其具有前景。从架构角度看,当前自动驾驶中的VLA方法可分为两大类:端到端VLA和双系统VLA。

4.1 端到端VLA
端到端VLA框架旨在单一架构内统一感知、推理和规划。通过利用多模态大语言模型的泛化能力,它们直接将多模态观察转换为动作,减少对手工模块和任务特定启发式的依赖。根据输出形式,可分为:
文本动作生成器:在语言空间中形式化驾驶为推理问题。模型产生人类可读的符号化决策,允许其用语言“思考”并证明其输出。根据抽象层次,可分为元动作(如“加速”、“变道”)和轨迹路径点(将运动规划表示为自然语言描述的未来坐标预测)。
数值动作生成器:为VLM骨干添加机制以产生可直接使用的数值输出。模型内部仍利用语言驱动的推理,但最终预测以轨迹、路径点或控制值的形式表达。主要实现方式有附加动作头(在VLM上附加专门的预测头)和附加动作token(将连续动作离散化为token空间,与推理token一起自回归生成)。

4.2 双系统VLA
双系统VLA框架借鉴了“快与慢思考”理论。在此范式中,VLM作为慢、审慎的系统,执行高层推理、态势评估和语言推断;而专门的自动驾驶模块作为快系统,负责实时、低延迟的轨迹生成与控制。结合两者优势,旨在同时实现可解释性和安全关键的反应能力。
根据VLM输出与专用规划器的交互方式,可分为两类:
显式动作引导:使用VLM作为结构化动作生成器,其高层输出随后由快速驾驶模块转换或细化。主要包括元动作引导(VLM输出符号化驾驶意图,作为下游规划器的语义先验)和路径点监督(VLM生成粗略轨迹路径点,由规划器细化为可执行轨迹)。
隐式表示传递:VLM在训练过程中作为教师或辅助模块,将推理能力或认知先验作为潜在特征传递给紧凑的端到端网络。主要包括知识蒸馏(将VLM生成的解释、推理轨迹或结构化动作语义蒸馏到E2E驾驶模型的潜在空间)和多模态特征融合(直接将VLM衍生的特征集成到快速规划器中)。
5 数据集与基准
标准化的数据集和基准构成了VLA研究的经验基础,支持模型开发、训练和评估。VLA驾驶系统整合了感知、语言和动作,因此其数据集在模态构成、标注粒度和任务定义上呈现出巨大的多样性。

5.1 数据集
视觉-动作数据集:如BDD100K、nuScenes、Waymo Open Dataset、nuPlan等。这些数据集提供了丰富的传感器观察与对应的控制动作,建立了视觉-动作基础,但缺乏明确的语言监督。
视觉-语言-动作数据集:在VA数据集基础上,增加了结构化或自由形式的自然语言标注,以支持联合感知-语言-动作学习。例如BDD-X(扩展了人类驾驶理由)、DriveLM(基于场景的图结构化问答对)、Impromptu VLA(聚焦于角案例和长尾事件)。QA风格的标注已成为扩展驾驶数据集的主导范式。
5.2 评估指标
评估指标根据模型的输出模态而不同:
- 基于轨迹的动作评估:通常在开环和闭环设置下进行。
- 开环评估:将预测轨迹与专家轨迹直接比较,不执行模拟。常用指标包括L2误差、碰撞率、平均位移误差、最终位移误差、漏检率等。
- 闭环评估:在模拟环境(如CARLA)中测量模型性能。常用指标包括路线完成率、驾驶分数、违规距离、无碰撞率、驾驶可采纳性、碰撞时间、舒适度、自车进度等。
- 基于文本的动作评估:对于自然语言表达的低层车辆控制,评估涵盖语言质量和控制有效性。标准文本指标(如BLEU、ROUGE、CIDEr)用于评估生成语言的质量。此外,还通过理由一致性、人类偏好评分以及执行成功率等指标进行评估。

5.3 定量实验与分析
广泛使用的基准包括nuScenes(开环规划质量)、WOD-E2E(长尾安全关键场景)、NAVSIM(闭环模拟评估)和Bench2Drive(CARLA上的闭环评估)。这些基准从轨迹精度、安全性、人类偏好对齐、长时程决策质量等多个维度综合评估模型性能。结果表明,融入语言通常能通过提供语义线索来提升规划安全性,尤其在复杂和长尾场景中。同时,计算效率和模型轻量化也是实际部署的重要考虑因素。




6 挑战与未来方向
VLA模型标志着从模块化堆栈向整体化、推理驱动的驾驶智能体的转变。然而,要在安全关键的自动驾驶中充分发挥其潜力,仍需解决若干根本性挑战。

6.1 当前挑战
模型架构与系统效率:VLA模型继承了现代视觉语言骨干的巨大计算开销,难以满足自动驾驶车辆严格的实时性约束。此外,缺乏针对驾驶专用感知、物理和多传感器融合优化的领域基础模型。
数据与泛化:虽然VLA组件在感知上可能泛化良好,但将这种理解对齐到动作空间引入了新的不确定性。长尾场景仍是失效点。同时,大规模收集高质量的多模态配对数据成本高昂,仿真环境存在明显的仿真到真实差距。
核心能力与可信度:VLA模型通过思维链提示产生自然语言理由,但这些解释是生成的产物,并非底层因果推理的忠实反映。语言幻觉带来了新的风险。此外,当前基于Transformer的VLA架构受限于有限的上下文窗口和短期条件,导致时序碎片化和不一致的决策。
6.2 未来方向
下一代模型范式:将VLA与预测性世界模型相结合,构建能够模拟候选动作条件下未来场景演变的统一端到端世界模型。同时,推进更丰富的多模态融合,结合VLM的可解释性与几何传感器的空间精度。
推进智能与适应能力:使VLA模型获得更深层的常识推理能力,理解意图、惯例和因果关系。实现安全、增量的持续学习与车载学习,以捕捉不断演变的道路基础设施和区域驾驶习惯。
安全部署的生态系统:建立超越当前基准的标准化评估协议,以捕捉VLA特有的风险(如推理失败、指令跟随错误)。开发形式化验证工具,为安全关键行为提供理论保证。同时,探索更丰富的人车交互与个性化,在满足严格安全与监管要求的前提下提升舒适度和信任感。
7 结论
视觉-语言-动作模型正通过将感知与高层推理及自然语言理解相结合,重塑自动驾驶领域。本文形式化了VLA问题设定,梳理了从传统VA流水线到现代VLA框架的演进历程,并将现有方法组织为连贯的架构家族,同时总结了支持其发展的数据集与基准。
VLA系统在可解释性、泛化能力和人机交互方面具有明显优势,但核心挑战依然存在:对齐符号推理与连续控制、确保长尾场景的鲁棒性、建立能忠实衡量指令跟随和安全性的评估协议。未来的进展将依赖于高效架构、更深度的多模态融合、世界模型驱动的规划以及更严格的人本测试等方面的突破。
总体而言,VLA代表了一个充满希望的方向,致力于构建不仅是称职的驾驶员,而且具备沟通能力、透明并能响应人类意图的自主智能体。
文章转载自公众号:AI智沿前线
原文链接:https://mp.weixin.qq.com/s/-Iw52grstUCRHkpypAddJw
