专栏感知VLA vs 世界模型:高阶智驾的“路线大战”

VLA vs 世界模型:高阶智驾的“路线大战”

巴山夜雨2026-05-21
25
0

最近刷智驾新闻,两个词频繁“打架”:VLA 和世界模型。有人站VLA,说它是端到端的终极答案;有人挺世界模型,认为这才是通往自动驾驶的必经之路。评论区更是吵得不可开交,仿佛车企分成了两个对立阵营。

但说实话,这很可能是一场误会。

VLA 和世界模型,根本不是“二选一”的单选题。 它们是两个不同层次、不同分工的技术,而且现在主流玩家已经在悄悄把它们揉在一起用了。

01 先搞清概念:一个是“大脑”,一个是“沙盘”

很多人把VLA和世界模型当成两种互相替代的方案,其实它们是两码事。

VLA(Vision-Language-Action,视觉-语言-动作模型),可以理解成一个全能型驾驶大脑。它的核心能力是“多模态融合”——能把摄像头看到的画面、你嘴里说的话、导航地图的信息,全部打通,然后直接输出方向盘、油门、刹车的动作。
你跟车说“帮我找个有快充的停车场”,它不光听懂这句话,还能看懂周围路况,自己规划路线开过去。而且它还能用自然语言解释自己的决策,告诉你“我为什么要变道”。简单说,VLA负责理解用户、理解场景、做出动作
世界模型,则是一个虚拟沙盘。它的核心任务是学透物理世界的运行规律:物体怎么运动、碰撞会怎样、雨天路面摩擦力怎么变化……它不一定要听懂人话,更多是盯着视觉和运动数据,通过预测下一帧画面来“理解”世界。
它的最大用处,是给智驾算法提供一个无限试错的训练场。你想练“暴雨夜突然窜出的外卖小哥”?不用实车去冒险,在世界模型生成的仿真场景里练一万次就行。所以世界模型负责安全、可靠、低成本地训练决策能力
两者的关系很清晰:VLA是负责“干活的”,世界模型是负责“陪练的”。一个管执行,一个管训练,根本不对立。

02 车企分两派?其实都在往同一个方向走

目前行业里的确有两种主流路线,但并不是“选VLA就不要世界模型”。

第一派:先冲VLA,再补世界模型。
代表是理想、小鹏、元戎启行。它们的思路很直接:用户要的是“能听懂我、开得像人”的体验,所以先把VLA这个多模态大脑搭起来。等VLA上车后,再用世界模型做强化学习,把动作的稳定性和安全性打磨到极致。
理想的MindVLA就依托自研的云端世界模型来纠正训练偏差;小鹏也在开发自己的世界模型,作为“云端模型工厂”的核心。它们不是抛弃世界模型,而是把世界模型当成VLA的“健身房”
第二派:先搭世界模型,再融入VLA。
代表是华为、蔚来、Momenta。

它们的逻辑是:安全第一。

先把物理世界的规律学透,让算法在虚拟沙盘里练到足够可靠,再逐步加入语言、地图等多模态能力。蔚来的NWM世界模型,其实已经带上了VLA的影子——量产车上的“停车场自主寻路”功能,就是语言+视觉+动作的融合。

华为的靳玉志更直白:他们看重WA(World Action),省掉中间的L(Language)环节,用视觉、声音、触觉等原始信息直接控车,减少转换损耗。但这也是一种把世界模型能力内置到端到端框架的做法。
看出共同点了吗?无论从哪边出发,终点都是VLA与世界模型的融合。区别只是先后顺序和侧重点。

03 两条路都不好走,各有各的坎

先说VLA的难题。它天生要多模态融合——图像、语言、语音、地图……模块越多,系统越臃肿。

车端算力有限,一个大模型跑起来,延迟和能耗都是硬伤。

更麻烦的是,自回归解码器是一步一步输出动作的,想做到毫秒级实时控制,难度极大。而且多模态对齐、数据集偏差、没见过场景的泛化能力,每一个都可能变成安全漏洞。

再说世界模型的坎。它的核心瓶颈是数据

世界模型再逼真,也是用历史数据训练出来的。如果真实世界里没采集过某种极端场景,模型就不知道该怎么模拟。这就是“数据飞轮”的道理:真实数据越丰富,世界模型仿真越准,然后生成更多高质量训练数据,再反哺算法。

理想已经累计了12亿公里有效驾驶数据,特斯拉FSD更是超过45亿英里。没这个底子,世界模型就是空中楼阁。

04 终极答案:不是二选一,而是“左右护法”

行业衡量智驾水平有两个核心指标:MPA(平均事故里程) 和 MPI(平均接管里程)。前者决定安全,后者决定体验。

头部车企的MPA已经达到人类驾驶安全水平的6倍以上,理想从2.1倍涨到了6.7倍;MPI方面,理想从端到端+VLM的225公里,目标是通过VLA冲到1000公里,特斯拉FSD也做到了213英里。

这些数字的背后,是VLA和世界模型共同发力的结果。VLA让车更懂用户、更懂场景,提升MPI;世界模型让车在虚拟环境里穷尽所有危险场景,提升MPA。

两者配合,再加上海量真实数据的飞轮效应,才是通往L3级以上高阶智驾的完整路径。

所以下次再看到“VLA vs 世界模型”的争论,你可以直接说:别争了,成年人全都要。

车企们嘴上站队,手里其实都在默默把两者焊在一起。毕竟用户要的不是技术路线,而是一辆能听懂指令、预判风险、开起来比老司机还稳的车。

而VLA与世界模型的融合,正在把这辆车一步步开到我们面前。

文章转载自公众号:凡智汇
作者:安念说
感知
技术深度解析
评论0
0/1000