AutoVLA：一种融合自适应推理与强化微调的端到端自动驾驶视觉

本篇论文出发点：

传统端到端方法主要专注于模仿专家轨迹，缺乏对环境进行深入理解和推理，尤其是在一些少见或复杂的场景中表现不足。随着视觉-语言模型VLM的发展，视觉语言模型能够拥有大量世界知识并具备推理能力，因此备受关注。在VLM基础上，视觉-语言-动作模型VLA更近一步，将场景理解拓展为"行动"，生成自车可执行的轨迹，但当前VLA模型中仍然存在着不少问题：

1.动作生成要么不符合物理约束，要么模型结构过于复杂。一些方法直接用VLM生成文本形式的动作或路径点，但这些结果可能不符合物理规律，甚至出现模态坍缩。为了解决这一问题，有研究引入中间层表示（如元动作或潜在动作token），再交由下游模块生成最终轨迹。但这样要么打破了端到端优化的优势，要么增加了系统复杂度和训练成本。

2.推理方式缺乏灵活性，效率不高。多数方法采用固定推理策略，无法根据场景难度在“直接决策”和“逐步推理（CoT）”之间灵活切换。虽然DriveVLM 提出了双系统方案，但它依赖多个独立模块，导致架构复杂、训练成本高且扩展性受限。因此本文提出AutoVLA解决以上问题

本文主要贡献:

1.提出AutoVLA，一种端到端自动驾驶框架。它将物理动作token直接嵌入预训练的VLM中，从而可以在同一个自回归模型中同时完成推理和决策。

2.结合监督和强化微调，这一统一架构使模型能够根据场景需要，在“直接生成轨迹”和“基于思维链推理”之间自适应切换。

知识点介绍：

1.K‑Disk 聚类：通过保证所选样本间的“距离”足够远，来构建一个全面且无冗余的codebook，其核心目标是选出k个彼此差异最大化的代表性样本，一般使用贪心方法，保证当前样本与已选其他样本差异最大化。

本文方法介绍：

l构建action codebook：对训练集按照每0.5秒进行轨迹划分，得到轨迹片段(Δx,Δy,Δθ)。对所有轨迹片段进行k-disk聚类，得到2048个代表性样本，构成codebook，可视化如图S1。训练时(Tokenization)，将专家轨迹按照0.5秒切分，找到与codebook最近的样本a。一条专家轨迹就会被token化为 [a1,a2,…,aT]。用分类loss进行监督。推理时(Detokenization)，语言模型自回归生成10个action token，依次查找每个token对应的(Δx,Δy,Δθ)，从当前位置出发，依次累加这些局部位移和旋转，得到最终的轨迹。这么做，相比之前方法，能更精准平滑的输出规划轨迹。

l自适应推理机制：如何实现模型自主决定要何时使用快思考和慢思考(CoT)？通过强化微调

l监督微调（SFT）阶段数据混用(轨迹和CoT混用)，给定相同的输入（图像、状态、指令）下，模型既学会直接输出轨迹，也学会先输出CoT再输出轨迹

l强化微调（RFT）阶段：使用奖励引导自适应选择，奖励定义为 r=rDriving−λr⋅rCoT，rDriving：驾驶质量奖励（如 nuPlan 中的 PDMS，反映安全性、舒适性、进度等）。rCoT：CoT 长度惩罚项，是一个关于 CoT 输出长度的 sigmoid 函数（公式 S5），输出越长，惩罚越大。λr：平衡权重（论文取 0.3，确保驾驶奖励占主导）。

lGRPO过程：对同一个驾驶场景，模型采样 G 个不同的输出（每组输出可能包含或不包含 CoT，长度也可能不同）D.3章节有详细参数；

lCoT数据集构建：本文作者使用了一个更大的模型Qwen2.5-VL-72B自动生成推理注释。整个数据流程附录有写包含四个关键组件：系统提示、用户信息、推理数据生成、人工质检。如下图S2

1.System Prompt：作用：告诉大模型它的角色、任务、CoT 的输出格式，并提供若干示例。

a)CoT 结构被固定为 4 个步骤：

a)场景描述与分析（Scene description and analysis）例如：“前方是一个十字路口，有行人正在横穿……”

b)关键目标识别与描述（Critical object identification and description）例如：“右侧有一辆正在变道的车辆，车号xxx”

c)周围目标的意图推理（Intention reasoning of surrounding objects）例如：“这辆车可能想插到本车前方”

d)决策与元动作（Decision-making and meta-action）例如：“本车应减速让行，然后继续直行”

e)这样设计是为了让推理过程结构化、可预测，便于后续小模型学习。

2.用户消息（User Message）：输入内容包含导航指令，自车状态还有多视角图像。关键技巧：在用户消息中显式加入从原始数据中提取的“真实元动作”（ground-truth meta-action），例如“实际驾驶中车辆在这里选择了减速”。这相当于给大模型一个提示（hint），引导它围绕这个真实决策生成因果解释，而不是随意编造。这显著减少了无意义输出，也降低了人工修正的工作量。

3.推理数据生成：对原始驾驶场景（图像+状态+指令）调用Qwen2.5-VL-72B，按系统提示生成 CoT 文本。

4.人工质检：评估标准：关键物体识别是否准确、因果推理是否合理、元动作鞠策是否正确。抽样3000个生成样本进行评估，准确率88.8%说明质量可以。对于错误样本，要么人工修复要么删除。

总结：

1.好的：

a)统一建模（Reasoning + Action）非常干净，确实解决了架构割裂问题

b)自适应推理，使用价值很高，很多工作一味强调CoT，没有关注过实际的推理延迟

2.不好的：把连续轨迹量化成2048个token虽然方便接入LLM，但带来两个问题：

a)精度上限受codebook限制（特别是复杂动态场景）

b)泛化到未见动作模式可能受限，比如U-Turn

文章转载自公众号：自动驾驶新视界

原文链接：https://mp.weixin.qq.com/s/xYpgt_fvvUWFg4GtuNCweA