最近刷智驾新闻,两个词频繁“打架”:VLA 和世界模型。有人站VLA,说它是端到端的终极答案;有人挺世界模型,认为这才是通往自动驾驶的必经之路。评论区更是吵得不可开交,仿佛车企分成了两个对立阵营。
但说实话,这很可能是一场误会。
01 先搞清概念:一个是“大脑”,一个是“沙盘”
很多人把VLA和世界模型当成两种互相替代的方案,其实它们是两码事。
02 车企分两派?其实都在往同一个方向走
目前行业里的确有两种主流路线,但并不是“选VLA就不要世界模型”。
代表是理想、小鹏、元戎启行。它们的思路很直接:用户要的是“能听懂我、开得像人”的体验,所以先把VLA这个多模态大脑搭起来。等VLA上车后,再用世界模型做强化学习,把动作的稳定性和安全性打磨到极致。
代表是华为、蔚来、Momenta。
它们的逻辑是:安全第一。
先把物理世界的规律学透,让算法在虚拟沙盘里练到足够可靠,再逐步加入语言、地图等多模态能力。蔚来的NWM世界模型,其实已经带上了VLA的影子——量产车上的“停车场自主寻路”功能,就是语言+视觉+动作的融合。
03 两条路都不好走,各有各的坎
先说VLA的难题。它天生要多模态融合——图像、语言、语音、地图……模块越多,系统越臃肿。
车端算力有限,一个大模型跑起来,延迟和能耗都是硬伤。
更麻烦的是,自回归解码器是一步一步输出动作的,想做到毫秒级实时控制,难度极大。而且多模态对齐、数据集偏差、没见过场景的泛化能力,每一个都可能变成安全漏洞。
世界模型再逼真,也是用历史数据训练出来的。如果真实世界里没采集过某种极端场景,模型就不知道该怎么模拟。这就是“数据飞轮”的道理:真实数据越丰富,世界模型仿真越准,然后生成更多高质量训练数据,再反哺算法。
理想已经累计了12亿公里有效驾驶数据,特斯拉FSD更是超过45亿英里。没这个底子,世界模型就是空中楼阁。
04 终极答案:不是二选一,而是“左右护法”
头部车企的MPA已经达到人类驾驶安全水平的6倍以上,理想从2.1倍涨到了6.7倍;MPI方面,理想从端到端+VLM的225公里,目标是通过VLA冲到1000公里,特斯拉FSD也做到了213英里。
两者配合,再加上海量真实数据的飞轮效应,才是通往L3级以上高阶智驾的完整路径。
车企们嘴上站队,手里其实都在默默把两者焊在一起。毕竟用户要的不是技术路线,而是一辆能听懂指令、预判风险、开起来比老司机还稳的车。
而VLA与世界模型的融合,正在把这辆车一步步开到我们面前。
作者:安念说
