VLA vs 世界模型：高阶智驾的“路线大战”

最近刷智驾新闻，两个词频繁“打架”：VLA 和世界模型。有人站VLA，说它是端到端的终极答案；有人挺世界模型，认为这才是通往自动驾驶的必经之路。评论区更是吵得不可开交，仿佛车企分成了两个对立阵营。

但说实话，这很可能是一场误会。

VLA 和世界模型，根本不是“二选一”的单选题。 它们是两个不同层次、不同分工的技术，而且现在主流玩家已经在悄悄把它们揉在一起用了。

01 先搞清概念：一个是“大脑”，一个是“沙盘”

很多人把VLA和世界模型当成两种互相替代的方案，其实它们是两码事。

VLA（Vision-Language-Action，视觉-语言-动作模型），可以理解成一个全能型驾驶大脑。它的核心能力是“多模态融合”——能把摄像头看到的画面、你嘴里说的话、导航地图的信息，全部打通，然后直接输出方向盘、油门、刹车的动作。

你跟车说“帮我找个有快充的停车场”，它不光听懂这句话，还能看懂周围路况，自己规划路线开过去。而且它还能用自然语言解释自己的决策，告诉你“我为什么要变道”。简单说，VLA负责理解用户、理解场景、做出动作。

世界模型，则是一个虚拟沙盘。它的核心任务是学透物理世界的运行规律：物体怎么运动、碰撞会怎样、雨天路面摩擦力怎么变化……它不一定要听懂人话，更多是盯着视觉和运动数据，通过预测下一帧画面来“理解”世界。

它的最大用处，是给智驾算法提供一个无限试错的训练场。你想练“暴雨夜突然窜出的外卖小哥”？不用实车去冒险，在世界模型生成的仿真场景里练一万次就行。所以世界模型负责安全、可靠、低成本地训练决策能力。

两者的关系很清晰：VLA是负责“干活的”，世界模型是负责“陪练的”。一个管执行，一个管训练，根本不对立。

目前行业里的确有两种主流路线，但并不是“选VLA就不要世界模型”。

第一派：先冲VLA，再补世界模型。
代表是理想、小鹏、元戎启行。它们的思路很直接：用户要的是“能听懂我、开得像人”的体验，所以先把VLA这个多模态大脑搭起来。等VLA上车后，再用世界模型做强化学习，把动作的稳定性和安全性打磨到极致。

理想的MindVLA就依托自研的云端世界模型来纠正训练偏差；小鹏也在开发自己的世界模型，作为“云端模型工厂”的核心。它们不是抛弃世界模型，而是把世界模型当成VLA的“健身房”。

第二派：先搭世界模型，再融入VLA。
代表是华为、蔚来、Momenta。

它们的逻辑是：安全第一。

先把物理世界的规律学透，让算法在虚拟沙盘里练到足够可靠，再逐步加入语言、地图等多模态能力。蔚来的NWM世界模型，其实已经带上了VLA的影子——量产车上的“停车场自主寻路”功能，就是语言+视觉+动作的融合。

华为的靳玉志更直白：他们看重WA（World Action），省掉中间的L（Language）环节，用视觉、声音、触觉等原始信息直接控车，减少转换损耗。但这也是一种把世界模型能力内置到端到端框架的做法。

看出共同点了吗？无论从哪边出发，终点都是VLA与世界模型的融合。区别只是先后顺序和侧重点。

先说VLA的难题。它天生要多模态融合——图像、语言、语音、地图……模块越多，系统越臃肿。

车端算力有限，一个大模型跑起来，延迟和能耗都是硬伤。

更麻烦的是，自回归解码器是一步一步输出动作的，想做到毫秒级实时控制，难度极大。而且多模态对齐、数据集偏差、没见过场景的泛化能力，每一个都可能变成安全漏洞。

再说世界模型的坎。它的核心瓶颈是数据。

世界模型再逼真，也是用历史数据训练出来的。如果真实世界里没采集过某种极端场景，模型就不知道该怎么模拟。这就是“数据飞轮”的道理：真实数据越丰富，世界模型仿真越准，然后生成更多高质量训练数据，再反哺算法。

理想已经累计了12亿公里有效驾驶数据，特斯拉FSD更是超过45亿英里。没这个底子，世界模型就是空中楼阁。

行业衡量智驾水平有两个核心指标：MPA（平均事故里程） 和 MPI（平均接管里程）。前者决定安全，后者决定体验。

头部车企的MPA已经达到人类驾驶安全水平的6倍以上，理想从2.1倍涨到了6.7倍；MPI方面，理想从端到端+VLM的225公里，目标是通过VLA冲到1000公里，特斯拉FSD也做到了213英里。

这些数字的背后，是VLA和世界模型共同发力的结果。VLA让车更懂用户、更懂场景，提升MPI；世界模型让车在虚拟环境里穷尽所有危险场景，提升MPA。

两者配合，再加上海量真实数据的飞轮效应，才是通往L3级以上高阶智驾的完整路径。

所以下次再看到“VLA vs 世界模型”的争论，你可以直接说：别争了，成年人全都要。

车企们嘴上站队，手里其实都在默默把两者焊在一起。毕竟用户要的不是技术路线，而是一辆能听懂指令、预判风险、开起来比老司机还稳的车。

而VLA与世界模型的融合，正在把这辆车一步步开到我们面前。

文章转载自公众号：凡智汇
作者：安念说