专栏感知AutoVLA:一种融合自适应推理与强化微调的端到端自动驾驶视觉

AutoVLA:一种融合自适应推理与强化微调的端到端自动驾驶视觉

巴山夜雨2026-05-15
1
0

本篇论文出发点:

传统端到端方法主要专注于模仿专家轨迹,缺乏对环境进行深入理解和推理,尤其是在一些少见或复杂的场景中表现不足。随着视觉-语言模型VLM的发展,视觉语言模型能够拥有大量世界知识并具备推理能力,因此备受关注。在VLM基础上,视觉-语言-动作模型VLA更近一步,将场景理解拓展为"行动",生成自车可执行的轨迹,但当前VLA模型中仍然存在着不少问题:

1.动作生成要么不符合物理约束,要么模型结构过于复杂。一些方法直接用VLM生成文本形式的动作或路径点,但这些结果可能不符合物理规律,甚至出现模态坍缩。为了解决这一问题,有研究引入中间层表示(如元动作或潜在动作token),再交由下游模块生成最终轨迹。但这样要么打破了端到端优化的优势,要么增加了系统复杂度和训练成本。

2.推理方式缺乏灵活性,效率不高。多数方法采用固定推理策略,无法根据场景难度在“直接决策”和“逐步推理(CoT)”之间灵活切换。虽然DriveVLM 提出了双系统方案,但它依赖多个独立模块,导致架构复杂、训练成本高且扩展性受限。因此本文提出AutoVLA解决以上问题

本文主要贡献:

1.提出AutoVLA,一种端到端自动驾驶框架。它将物理动作token直接嵌入预训练的VLM中,从而可以在同一个自回归模型中同时完成推理和决策。

2.结合监督和强化微调,这一统一架构使模型能够根据场景需要,在“直接生成轨迹”和“基于思维链推理”之间自适应切换。

知识点介绍:

1.K‑Disk 聚类:通过保证所选样本间的“距离”足够远,来构建一个全面且无冗余的codebook,其核心目标是选出k个彼此差异最大化的代表性样本,一般使用贪心方法,保证当前样本与已选其他样本差异最大化。

本文方法介绍:

图片
l构建action codebook:对训练集按照每0.5秒进行轨迹划分,得到轨迹片段xyθ)。对所有轨迹片段进行k-disk聚类,得到2048个代表性样本,构成codebook,可视化如图S1。训练时(Tokenization),将专家轨迹按照0.5秒切分,找到与codebook最近的样本a。一条专家轨迹就会被token化为 [a1,a2,…,aT]。用分类loss进行监督。推理时(Detokenization),语言模型自回归生成10个action token,依次查找每个token对应的(Δxyθ),从当前位置出发,依次累加这些局部位移和旋转,得到最终的轨迹。这么做,相比之前方法,能更精准平滑的输出规划轨迹。
图片

l自适应推理机制:如何实现模型自主决定要何时使用快思考和慢思考(CoT)?通过强化微调

l监督微调(SFT)阶段数据混用(轨迹和CoT混用),给定相同的输入(图像、状态、指令)下,模型既学会直接输出轨迹,也学会先输出CoT再输出轨迹

l强化微调(RFT)阶段:使用奖励引导自适应选择,奖励定义为 r=rDriving−λrrCoT,rDriving:驾驶质量奖励(如 nuPlan 中的 PDMS,反映安全性、舒适性、进度等)。rCoT:CoT 长度惩罚项,是一个关于 CoT 输出长度的 sigmoid 函数(公式 S5),输出越长,惩罚越大。λr:平衡权重(论文取 0.3,确保驾驶奖励占主导)。
lGRPO过程:对同一个驾驶场景,模型采样 G 个不同的输出(每组输出可能包含或不包含 CoT,长度也可能不同)D.3章节有详细参数;
图片

lCoT数据集构建:本文作者使用了一个更大的模型Qwen2.5-VL-72B自动生成推理注释。整个数据流程附录有写包含四个关键组件:系统提示、用户信息、推理数据生成、人工质检。如下图S2

1.System Prompt:作用:告诉大模型它的角色、任务、CoT 的输出格式,并提供若干示例。

a)CoT 结构被固定为 4 个步骤:

a)场景描述与分析(Scene description and analysis)例如:“前方是一个十字路口,有行人正在横穿……”

b)关键目标识别与描述(Critical object identification and description)例如:“右侧有一辆正在变道的车辆,车号xxx”

c)周围目标的意图推理(Intention reasoning of surrounding objects)例如:“这辆车可能想插到本车前方”

d)决策与元动作(Decision-making and meta-action)例如:“本车应减速让行,然后继续直行”

e)这样设计是为了让推理过程结构化、可预测,便于后续小模型学习。

2.用户消息(User Message):输入内容包含导航指令,自车状态还有多视角图像。关键技巧:在用户消息中显式加入从原始数据中提取的“真实元动作”(ground-truth meta-action),例如“实际驾驶中车辆在这里选择了减速”。这相当于给大模型一个提示(hint),引导它围绕这个真实决策生成因果解释,而不是随意编造。这显著减少了无意义输出,也降低了人工修正的工作量。

3.推理数据生成:对原始驾驶场景(图像+状态+指令)调用Qwen2.5-VL-72B,按系统提示生成 CoT 文本。
4.人工质检:评估标准:关键物体识别是否准确、因果推理是否合理、元动作鞠策是否正确。抽样3000个生成样本进行评估,准确率88.8%说明质量可以。对于错误样本,要么人工修复要么删除。
图片

总结:

1.好的:

a)统一建模(Reasoning + Action)非常干净,确实解决了架构割裂问题

b)自适应推理,使用价值很高,很多工作一味强调CoT,没有关注过实际的推理延迟

2.不好的:把连续轨迹量化成2048个token虽然方便接入LLM,但带来两个问题:

a)精度上限受codebook限制(特别是复杂动态场景)

b)泛化到未见动作模式可能受限,比如U-Turn

文章转载自公众号:自动驾驶新视界

感知
技术深度解析
评论0
0/1000