专栏感知小鹏VLA2.0:当AI学会了像老司机一样开车

小鹏VLA2.0:当AI学会了像老司机一样开车

巴山夜雨2026-05-15
7
0

你有没有想过,未来的智能驾驶系统会不会有一天真的能像一个经验丰富的老司机那样开车?不是那种只会机械执行指令的机器,而是懂得察言观色、会礼让行人、能在拥堵路段见缝插针、甚至还能预判前方路况的"活"司机?

小鹏的第二代VLA(视觉语言动作模型)正在让这个想象变成现实。

从"翻译官"到"直觉反应":AI开车的思维革命

要理解VLA2.0的突破,我们先得看看传统智能驾驶是怎么工作的。以前的系统就像一个刚学外语的人,看到前方的红灯,先在脑子里翻译成文字"前方有红灯",然后再决定"应该踩刹车"。这个翻译过程虽然只有短短200毫秒,但在紧急情况下,这200毫秒可能就是安全与危险的分界线。

VLA2.0做了一件很聪明的事——它把这个"翻译官"给辞退了(中间不翻译成language)。现在的系统看到红灯,就像母语者听到自己的语言一样,不需要翻译,直接就能做出反应。这种"直觉反应"把决策时间缩短到了80毫秒,相当于人类眨一次眼的时间。这意味着什么?意味着当突然有行人从路边冲出来时,系统能比传统方案快3倍做出反应。

你可能会问,那中间的"语言理解"环节去哪了?其实它还在,只是变成了"隐式语义"。你可以理解为一种只可意会不可言传的直觉。就像老司机看到前方车辆稍微偏离车道,就能预判它可能要变道,但不需要在心里默念"前车左偏5度,预计3秒后变道"。VLA2.0也有这种直觉,它在内部理解路况,但不需要转化成文字,这样既保留了理解的深度,又省去了翻译的时间。

能预见未来的"棋手":24秒的预判能力

X-World 模型是在一个精心策划的数据集上训练的,该数据集包含大规模的高保真真实世界驾驶序列。这些序列的特点是多样性,涵盖了广泛的外部环境、异构的汽车行为以及复杂的多智能体交互。每个数据样本都由一段 10 秒的时序片段组成,并整合了以下多模态数据流:多视角视频流,来自七个周边摄像头的同步视频源。

如果说取消翻译环节是让AI反应更快,那么X-World物理世界模型就是让AI看得更远。这个模型能让系统预判未来24秒内可能发生的事情。

图片
图片

24秒是什么概念?以60公里每小时的速度行驶,24秒可以开出400米。也就是说,系统能提前预判半公里外的路况。这就像一个下棋高手,普通棋手只看当前局面走一步看一步,而高手能预判未来十几步的变化,提前布局。在实际驾驶中,这种预判能力体现在很多细节上。比如前方路口绿灯还剩几秒,旁边车道的车会不会突然并线,行人走到斑马线需要多久。系统不是等到事情发生了才反应,而是提前就知道可能会发生什么,然后做好准备。

长视野多相机生成

下图 展示了 X-World 在多相机流上的 24 秒长视野推演。生成的视频在扩展视野上保持稳定,保持连贯的运动和外观,没有灾难性漂移。重要的是,X-World 可以推演超出阶段 I 训练中使用的短片段设置,使其适合交互式模拟和闭环评测。

长序列生成

为了让这种预判跑得更快,小鹏还搞了个X-Cache推理加速引擎。你可以把它想象成给大脑装了个快速记忆库,X-Cache的做法是把这些中间结果缓存下来,下一帧生成时直接调用,而非从头再算;缓存内容随生成实时刷新,确保画面连贯不失真。这让大模型的运行效率提升了2.7倍左右,就像你背熟了乘法口诀表,看到7乘8不用再去掰手指头算,直接就能说出56。

超强算力背后的"厨师哲学"

再聪明的算法也需要强大的硬件支撑。小鹏自研的图灵AI芯片能提供2250(3颗)到3000 TOPS(4颗)的有效算力。TOPS是每秒万亿次运算的意思。其中:

2颗用于智驾(推理): 专门负责运行 VLA 大模型,进行自动驾驶的感知、决策和规划推理。
1颗用于智能座舱: 负责与高通8295芯片协同,运行 VLM(视觉-语言模型)多模态大模型,提升座舱的交互体验。

65000年的驾驶经验:AI见过的路况比人类历史还长

算力是大脑的处理速度,数据则是老司机的驾驶阅历。VLA2.0的训练数据包含了1亿条视频片段,覆盖了65000年的人类驾驶极限场景。

65000年是什么概念?人类文明史大概也就5000到6000年,65000年相当于人类从旧石器时代到现在的总时长。这意味着AI见过的奇葩路况,比整个人类历史加起来还要多。暴雨、大雪、夜间逆光、施工路段、突然冲出的行人、爆胎等极端场景,系统都"经历"过。

这些数据不是靠真人开出来的,而是通过真实路测、仿真模拟和数据增强三种方式积累的。小鹏车队多年积累的实车数据提供了基础,虚拟环境中生成的各种极端场景补充了现实中难以遇到的情况,再通过对已有数据进行光照、天气、角度的变换,生成了更多的训练样本。

更夸张的是,系统每天消耗的信息量相当于全中国所有人使用AI服务总和的80倍。这说明VLA2.0不是一个静态的系统,它每天都在学习,每天都在变得更聪明。

没有导航也能认路的"本地老司机"

很多人用智能驾驶时都有个痛点:必须依赖高精地图。一旦导航失灵或者地图没更新,比如新修的路还没录入系统,车子就懵了。这就像一个外地游客,必须跟着导航走,离了导航就迷路。

VLA2.0不一样,它像个本地老司机,凭眼睛看路就能开。即使没有导航,它也能识别车道线、交通标志、其他车辆,自主判断该怎么走。在窄巷会车时,它能判断两边距离,自动减速微调方向;在夜市人流中,它能识别行人动态,缓慢蠕行避免急刹;在施工路段,它能识别临时锥桶和改道标志,灵活绕行。

这种能力的提升直接反映在接管率上。传统L2系统每100公里可能需要人工接管5次,而VLA2.0只需要1次。从北京开到上海大约1200公里,传统系统可能需要接管60次,而VLA2.0只需12次左右。这意味着你大部分时间都可以真正放松,而不是时刻准备着接手。60提升到12次,这就是说提高了5倍。

AI学会了"人情味":那些没有被编程的行为

最让人惊喜的是,VLA2.0学会了一些没有被明确编程的行为。比如看到行人挥手示意你先过,它会主动礼让;红灯还剩2秒时,它会缓慢向前蠕动,绿灯一亮立即起步,而不是等绿灯亮了才从静止开始加速;旁边车辆打灯想并线时,它会适当减速让行。

这些行为被称为"涌现能力",意思是系统在没有被明确教导的情况下,通过大量数据训练自发学到的行为。就像小孩没有学过礼貌的具体定义,但通过观察大人行为,自然学会了说谢谢和对不起。VLA2.0看了无数人类司机的驾驶视频,发现好的司机会在某些场景下做出特定行为,于是它也学会了。

有人可能会担心,系统会不会过度礼让导致通行效率降低?其实系统会权衡安全和效率。如果行人明显在等你,它就礼让;如果行人还在远处没有过马路意图,它就正常通行;如果后方有车紧跟,它会避免急刹,选择更平缓的减速。这种权衡是通过大量数据训练出来的,目标是既安全又高效。

比人类更高效:广州晚高峰实测快1分钟

在驾驶风格上,VLA2.0展现出了比人类司机更高的效率和更好的舒适性。在广州晚高峰的实测中,它的通行效率比人类驾驶快1分钟,比传统L2系统快5分钟。

为什么AI能比人类更高效?因为人类司机有天然的局限性。我们会注意力分散,看手机、聊天、走神;我们的反应有延迟,从看到情况到踩油门通常需要0.5到1秒;我们还受情绪影响,紧张时过于保守,急躁时过于激进。

VLA2.0没有这些问题。它24小时专注不分心,80毫秒的反应速度比人类快6到12倍,而且始终理性不受情绪影响。所以在保证安全的前提下,它能更高效地通行。

舒适性方面,VLA2.0也做了很多优化。看到前方减速带,它会提前50米开始平缓减速,而不是到了跟前才急刹;加速、减速、转向都是丝滑的曲线,没有突兀的跳变;遇到积水路段,它会识别水坑匀速通过,避免溅水或打滑。传统L2系统坐起来像过山车,刺激但难受;VLA2.0坐起来像高铁,又快又稳。

用户用脚投票:98.52%的开启率说明一切

市场表现是最真实的反馈。2026年4月,小鹏Ultra车型订单环比增长了118%,首次购车选Ultra的比例增长了129.3%。更关键的是,Ultra车主首周智驾开启率达到了98.52%,几乎所有车主都在用这个功能。

98.52%这个数字很有说服力。很多车企的智能驾驶功能,用户买回去之后很少用,因为不好用或者不放心。但VLA2.0的高开启率说明它确实可靠、易用,不是买了不用的花瓶功能。

还有一个数据很有意思:50岁以上女性用户的使用率达到了95.3%。这个群体通常对新技术接受度较低,但VLA2.0的高可靠性让她们也放心使用。复杂小路的接管次数环比减少了36.28%,说明系统确实在持续进步,越用越好用。

这让人想起智能手机的普及过程。早期智能手机只有科技爱好者在用,iPhone之后老人小孩都在用。VLA2.0正在经历类似的转折点,从极客玩具变成大众工具。

15万级车型也能用上:智能驾驶的普惠时代

更令人期待的是,VLA2.0正在走向普惠。MONA M03 Max版将搭载蒸馏版VLA 2.0,预计在2026年第三季度推送。这意味着15万级的普通家庭也能享受智能驾驶带来的便利。

对于大多数用户来说,蒸馏版已经足够好用。在日常通勤场景中,两者体验接近,都能应对90%以上的场景。主要差异在极端复杂路况,比如暴雨加夜间加施工路段,完整版处理更从容,蒸馏版可能需要更早请求人工接管。

智能驾驶不再是30万以上豪车的专属,这会加速智能驾驶的普及,就像当年ABS、安全气囊从豪车下放到平民车一样。

出海无障碍:到哪都能开的全球公民

VLA2.0的另一个优势是无高精地图依赖的架构,这让它在出海时几乎没有障碍。传统方案每到一个国家都要重新绘制高精地图,成本高周期长。而VLA2.0靠眼睛看路,到哪都能开,就像人类司机去国外租车,看路牌观察当地交通规则就能适应。

在欧洲,很多老城区道路狭窄,两车相遇时需要一方倒车让行。这需要极强的空间感知能力和精准控制,VLA2.0能自主完成这种操作,说明它的泛化能力很强。不同国家的交通规则不一样,系统通过视觉识别当地的交通标志标线信号灯样式,再通过OTA推送当地特定的规则包,很快就能适应。

泛化优势:依赖全球通用规则

VLA 2.0的物理AI架构将交通规则编码为底层逻辑(如“红色=禁止”“黄色=警告”),而非依赖地图数据。因此,对符合国际标准的路牌(如红绿灯、STOP标志),无需额外训练即可识别
何小鹏提到,其在海外测试中“未依托本地数据仍能实现优异表现”,尤其在欧洲窄路、人车混行场景中博弈能力优于特斯拉FSD,因FSD更依赖区域数据训练。

仍需本地化适配的关键点

非标准路牌与文化差异:部分国家存在特殊路牌(如日本“徐行”标志、中东手绘指示牌),需通过少量本地数据微调模型。何小鹏明确表示后续OTA将加强“多语言和本地化支持”,例如适配欧洲特有的“环岛让行规则”或东南亚摩托车密集场景。
物理精度限制:在极端狭窄场景(如欧洲老城3米宽巷道),模型需结合本地道路宽度数据优化控制精度,否则可能因泛化过度导致保守决策。

结语:从辅助工具到靠谱的老司机

VLA2.0标志着智能驾驶进入了一个新时代。过去的系统是规则驱动的,程序员写死各种如果那么的逻辑;现在的系统是数据驱动的,AI从海量数据中学习驾驶技能。这就像从功能手机到智能手机的跨越,前者只能打电话发短信,后者能装各种APP无限扩展。

一句话概括,VLA2.0让智能驾驶从辅助工具变成了靠谱的老司机。响应速度从200毫秒降到80毫秒,遇到突发情况更安全;从依赖高精地图到无地图依赖,城区窄巷夜市都能开,上下班全程可用不用频繁接管;从机械顿挫到拟人丝滑,乘客不晕车通行效率更高。

文章转载自公众号:谈工作聊生活

作者:桃树

感知
技术深度解析
评论0
0/1000