端到端时代，自动驾驶的主线到底是什么？

作者 | 自动驾驶之心团队
编辑 | 自动驾驶之心

2026年3月16日，圣何塞，座无虚席。

450+赞助商、1000场 session、2000位演讲者 ——G TC 2026 的信息密度，大概是普通行业峰会的十倍不止。

如果你只把 GTC 2026 看成一场 AI 行业大会，那大概率会低估它。因为这次 GTC 的自动驾驶分会场，更像一次关于 “下一代自动驾驶到底该怎么做” 的集体摊牌。

端到端时代，自动驾驶的主线到底是什么？

黄仁勋在台上那句“Everything that moves will eventually be autonomous”，听起来像一句典型的 GTC 式口号。

但当你把四天的分享连起来看，就会发现，这已经不只是口号，而是一份越来越清晰的产业路线图。

从英伟达自己端出的平台、模型和数据工厂；
到理想、小米、卓驭、元戎、文远这些中国公司集体宣发；
再到 Wayve、Uber、奔驰这些海外玩家给出的另一套端到端叙事——

大家表面上讲的是不同方案，底层上争的其实是同一件事：谁能先做出真正理解物理世界的驾驶智能。

所以，这也是这次 GTC 最值得写的地方。

笔者不打算讨论芯片路线图和英伟达的股价。这篇文章只关注三件事：各家在 GTC 上到底分享了什么技术、行业共识是什么、作为普通算法工程师我们该怎么办。

一、英伟达的"底牌"：平台、模型、数据工厂

在展开各家分享之前，有必要先说清楚英伟达自己端了什么菜上桌。因为这些"基础设施"，直接影响了后面每家公司的技术叙事。

DRIVE Hyperion：L4 的"朋友圈"炸了

GTC 2026 最大的商业新闻，是 DRIVE Hyperion 平台的合作阵容集体扩容——比亚迪、吉利、日产、五十铃四家宣布采用该平台开发 L4 级自动驾驶，现代/起亚扩大战略合作覆盖 L2+ 到 L4 全场景，奔驰新一代 S 级搭载 DRIVE AV，支持 L4-ready 架构。

更值得玩味的是出行端：Uber 宣布基于 DRIVE Hyperion 的 Robotaxi 将在 2028 年前覆盖 28 个城市、4 大洲，Bolt、Grab、Lyft 也开始布局。

说白了，从造车到出行，从中国到欧洲，从传统豪华品牌到新能源巨头，NVIDIA 在 L4 这张牌桌上，几乎把能叫的玩家都叫齐了。

图片来源于 NVIDIA 官方

Alpamayo 1.5：开放的"推理型 VLA"

如果说 Hyperion 是硬件底座，那 Alpamayo 就是英伟达在模型层的核心押注。

Alpamayo 1.5 是一个 10B 参数的推理型 VLA（Vision-Language-Action）模型，基于 Cosmos-Reason2 VLM 骨架，经强化学习后训练。它的输入是多路视频 + 自车运动历史 + 导航信息 + 自然语言提示，输出是驾驶轨迹 + 可解释的推理链（Chain-of-Thought）。

关键词有三个：**"开放"（任何人可用、可改、可微调）、"推理型"（不是黑箱，有可解释的思维链）、"长尾"（专攻极端场景）。自 CES 2026 发布以来，已被超过 10 万汽车开发者下载**。

NVIDIA 还提供了完整的后训练脚本（SFT + RL），支持开发者在自有数据上微调——这意味着 Alpamayo 不只是一个模型，更像是一个开放的 VLA 基座，让各家在其之上构建差异化方案。

Physical AI Data Factory："算力即数据"

NVIDIA 副总裁 Rev Lebaredian 在发布 Physical AI Data Factory Blueprint 时说了一句颇有哲学意味的话：**"In this new era, compute is data."**

这个蓝图包含三个核心组件：Cosmos Curator（数据处理/标注）、Cosmos Transfer（数据扩展/多样化）、Cosmos Evaluator（数据评分/验证/过滤）。本质上，它是一套用算力"制造"训练数据的参考架构，目标是用合成数据替代大量真实路测。

与此同时，NVIDIA AI 研究副总裁 Sanja Fidler 宣布："We have entered the era of generative simulation." 配套的 AlpaDreams 系统可以实时生成多摄像头、物理感知的驾驶场景——这不是渲染出来的假数据，而是能直接用于策略测试的"生成式仿真"。

再加上 NuRec 基于 3D Gaussian Splatting 的场景重建（900+ 重建场景已在 Hugging Face 开放）、1700+ 小时的 Physical AI AV Dataset（新增人工验证的推理标注），英伟达在"数据-仿真-模型"三角关系上，基本补齐了闭环。

笔者的判断：英伟达已经不再只是自动驾驶的"卖铲人"——它在定义整个行业"怎么挖矿"。 从芯片到平台、从模型到数据工厂、从安全架构（Halos OS）到开放生态，它提供的不是一个产品，而是一整套"做 L4 的方法论"。

二、中国军团亮剑：GTC 上的"中国声音"

这次 GTC 2026 中最让笔者惊喜的，是中国公司在技术分享上的集体"亮剑"。不是去凑热闹，不是去站台背书，而是在全球最顶级的 AI 大会上，拿出自研技术框架做系统性分享。

笔者梳理了 GTC China Session 中与自动驾驶直接相关的几场核心分享，逐一拆解。

理想汽车：MindVLA-o1——五大创新构建"物理世界智能"

理想汽车基座模型负责人詹锟分享了下一代自动驾驶基础模型 MindVLA-o1，围绕五大技术创新展开：

一是 3D 空间理解。 采用以视觉为核心的 3D ViT Encoder，利用激光雷达点云作为三维几何提示，引导模型理解真实空间结构。同时引入前馈式 3DGS 表示，将场景拆分为静态环境与动态物体分别建模，并通过 Next-state Prediction 作为自监督信号，使模型同时学习深度、语义和运动信息。

二是多模态思考（Generative Multimodal Thinking）。 在语言模型承担语义理解的基础上，引入预测式隐世界模型（Latent World Model），在隐空间中高效模拟未来。训练分三阶段：先用海量视频预训练 Latent World Token，再在模型中持续推演形成隐空间未来推理能力，最后将世界模型、多模态推理与驾驶行为联合训练对齐。理想将这种能力定义为——模型不仅能理解当前场景，还能在隐空间中提前"想象"未来画面。

三是统一行为生成（Unified Action Generation）。 采用 VLA-MoE 架构 + 专门的 Action Expert，从 3D 场景特征、导航目标、驾驶指令等多维输入中提取信息，结合多模态思考生成轨迹。为满足实时性，采用并行解码同时生成所有轨迹点；再通过 Discrete Diffusion（离散扩散） 多轮迭代优化，确保轨迹空间连续、时间稳定且符合动力学约束。

四是闭环强化学习。 构建 World Simulator，将传统逐步重建升级为前馈场景重建，可瞬时生成大规模高保真场景。结合生成式模型扩展新场景，并开发统一的 3DGS 渲染引擎 + 分布式训练框架，渲染速度提升近 2 倍，整体训练成本降低约 75%。

五是软硬件协同设计。 将模型结构与验证损失建模，结合 Roofline 模型刻画硬件约束，评估近 2000 种架构配置，在 Orin 与 Thor 平台上找到模型精度与推理延迟的帕累托前沿，将架构探索时间从数月缩短至数天。

值得一提的是，MindVLA-o1 背后是一套完整的 AI 框架：MindData（数据引擎）→ MindVLA-o1（统一 VLA 模型）→ MindSim（世界模型仿真）→ RL Infra（强化学习基础设施），四大模块形成闭环。量产数据也很扎实：截至 2025 年底，VLA 司机大模型月使用率达 80%，VLA 指令累计使用 1225.4 万次。

詹锟在演讲中说了一句颇有野心的话："基于同一套 VLA 模型，不仅可以控制车辆，也能够扩展到机器人。自动驾驶只是物理 AI 的起点。"理想是首家在 GTC 公开分享 VLA 模型完整架构的中国车企，这本身就是一个信号。

小米汽车：Reinforced Cognitive——"认知驱动不等于车端部署大模型"

小米汽车辅助驾驶算法和交付负责人陈光分享了 Reinforced Cognitive（强化认知） 端到端框架。开场就点明了一个核心约束：车端算力仅 700-1000 TOPS，需实时处理 11 路 30Hz 高清相机 + 10Hz 前向激光雷达。在这个"铁律"下，小米给出的结论很明确：不在车端部署完整视觉语言大模型，而是将云端大模型认知转化为先验，注入轻量级车端模型。

围绕这一思路，这套框架包含四大核心支柱：

一是认知先验蒸馏。 在云端部署多组视觉基础模型作为"教师"，通过跨模态蒸馏向车端"学生模型"注入稠密特征、概念边界、4D 占据网格等感知先验。其中 4D Occupancy 是核心武器——通过蒸馏未来 1-3 秒可行驶空间，让模型从"模仿行为"升级为"理解因果"。陈光举了个生动的例子：路口直行时，纯数据驱动模型易因邻车道车辆停车而错误制动，而注入先验后模型能判断自车前方畅通即可正常通行。

二是时序融合与记忆压缩。 通过异步 BEV 融合机制（运动对齐 → 新数据更新 → 新鲜度门控）实现 30Hz 相机与 10-20Hz 激光雷达的无缝融合；再用 Token 重采样将高维多帧特征压缩为紧凑的"持久化认知 Tokens"，跨越秒级时间窗口编码交互意图和盲区风险——用极低算力成本替代 VLM 完成长时序因果推理。

三是层级生成式规划。 三层架构：顶层 Decision（5-10s，宏观意图）→ 中层 Meta-action（1-2s，扩散模型/自回归生成轨迹）→ 底层 Control（100ms，连续细化输出平顺指令）。支持并行候选生成 + RL 奖励快速评估筛选最优方案。

四是强化学习 + Genesis 世界模型。 小米自研的 Genesis 世界模型是业界首个跨模态对齐的多视图视频 + 激光雷达点云联合生成框架，具备高保真场景重建、可编辑环境、反事实数据生成三大能力。更巧妙的是，小米将车队数据中不到 1% 的人类接管数据作为核心监督信号，转化为惩罚与纠错示范投射进仿真器。

笔者认为，小米这套框架最聪明的地方在于它的务实定位：认知驱动 ≠ 车端部署大模型。在其他公司追求把更大的模型塞进车里时，小米选择了"云端赋能、车端执行"的协同路线。这不是技术妥协，而是对量产约束的清醒认知。

卓驭科技：从 VLA 到原生多模态基础模型

卓驭科技陈晓智在 GTC 2026 上系统分享了其智驾基础模型 VLA World Model 的完整技术路线，信息密度远超预期。卓驭一贯以低成本、高可靠性著称，但这次分享表明，它在模型架构层面的思考深度丝毫不亚于任何一家头部公司。

卓驭首先梳理了 VLA 的演进脉络，将其划分为四个阶段：

E2E + VLM：传统端到端模型与视觉语言模型的简单拼接，感知与规划各自独立，无 LLM 增强驾驶能力，无统一视觉编码器，推理依赖语言 COT。
VLA（E2E + VLA）：在端到端基础上"缝合"VLA 能力，引入 LLM 增强驾驶，但视觉编码器仍未统一，本质上是在已有 E2E 系统上扩展 VLA，而非从头设计。
VLA（VLM + Action Head）：以 VLM 为骨架，外接 Action Decoder 输出驾驶行为，实现了统一视觉编码器和 LLM 增强驾驶，但基座仍是 VLM，缺乏视频-动作联合预训练，推理仍是语言 COT。
VLA World Model（原生多模态基础模型）：这是卓驭的核心押注。与前三阶段最大的区别在于三点——基座是原生多模态基础模型（Native Multimodal FM） 而非 VLM；支持通用视频-动作联合预训练；推理方式从语言 COT 升级为隐空间推理（Latent Reasoning）。

这一划分非常有价值：它清晰指出了行业从"模块拼接"到"原生统一"的演进方向，也解释了为什么简单地在 VLM 上加 Action Head 不足以解决深层问题。

而他们的 VLA World Model 架构分为四层：多模态输入层。 支持 8 种模态的高效 Token 化接入：视频、毫米波雷达、激光雷达、导航、地图、文本指令、音频、自车状态。不仅覆盖传统传感器输入，还将导航提示、用户语音命令、外部音频等全部纳入 Token 化体系。基础表征层（Multimodal Foundation Backbone）。 这是整个模型的核心——构建统一的时空世界表征，实现视频、文本、动作等多模态的对齐表示，并具备通用语义理解与 3D Grounding 能力。动作生成层。 在统一的连续隐空间中进行高效推理，经 Future State 预测 → Reasoning 推理 → Action Decoder 解码三阶段，自回归地生成 Ego Trajectory。

训练流程分三阶段：

预训练：基于互联网规模的图像/视频与文本数据预训练，进行视频-动作联合预测建模，实现视觉、文本、动作、音频的原生多模态对齐。
后训练：依次进行 SFT 微调、RL 对齐推理与动作、RL 从缺陷数据中纠正行为，并结合规则与学习型奖励函数。
蒸馏部署：通过剪枝与蒸馏实现车端部署。

笔者认为，卓驭的分享细节并不是很多，大多为一些行业共识，咱也说不清内部做的和 ppt 中展示出来的，有多大的 gap。但是不得不说，卓驭这两年单子确实多。

元戎启行：40B VLA——从"工程问题"到"模型问题"

元戎启行 CTO 曹通易的分享，抛出了一个尖锐的判断：自动驾驶撞上的不是算力墙，是"认知墙"。 数据在爆炸，车队在扩大，但系统的进步速度在放缓——端到端并没有带来想象中的跃迁，长尾问题依然顽固。问题不在工程，而在于现有模型更多是"记忆分布"而非"理解世界"。

元戎的解法是：40B 参数的 VLA 模型。这个模型不只是更大，而是从架构上让模型同时承担三种角色：

Driver（驾驶员）：输出驾驶行为
Analyst（分析师）：解释当前场景和决策依据
Critic（评估者）：评估行为优劣

在预训练阶段，元戎没有沿用轨迹监督，而是转向视频预测——当模型被要求预测未来帧时，它必须学习物体运动、空间关系和因果逻辑，训练目标从"模仿行为"转向"建模世界"。进入 Midtrain 阶段，三个角色被同时训练，并通过 "Learning to Explain" 任务强制模型用自然语言描述场景和决策依据——能说清楚，才意味着真的理解。

推理阶段则抽象为 Observe → Reason → Act 三步：视觉输入编码为 Token，经过推理生成决策逻辑，再转化为控制指令。自动驾驶第一次有了类似"思考过程"的中间层。

更深层的变化在数据闭环：Foundation Model 重构了整个流程——数据挖掘、接管分析、标注、质量评估全部由模型完成，而非人工驱动。这让系统开始具备"自我进化"能力：模型越强，数据处理能力越强；数据越多，模型又进一步提升。

量产侧，元戎已实现超 20 万辆城市 NOA 量产交付，计划 2026 年达百万级。40B 模型如何部署是工程问题，但曹通易的判断很明确：这些问题不再决定上限，只约束落地节奏。

文远知行：双 Thor + GENESIS，从 L2 打到 L4

文远知行资深副总裁钟华分享了一套从 L2 到 L4 贯通的端到端部署方案。

技术亮点在于：

双 DRIVE Thor 芯片的 HPC 3.0 高性能平台，专为 L4 端到端推理和多任务并行设计
云端训练 + Thor 车端推理的协同架构，贯通云到车
自研仿真平台 WeRide GENESIS，集成 Smart Agent、视频生成、风格迁移等能力，可快速生成多视角传感器数据与长尾场景

BTW, 文远的"双 Thor + GENESIS"方案，是目前公开信息中最详尽的 NVIDIA Thor 在 Robotaxi 场景落地的技术描述。

三、Wayve 与全球 Robotaxi 阵营：另一种"端到端"叙事

中国公司之外，还有一条不容忽视的技术线索——Wayve。

这家英国公司在 GTC 2026 前完成了15 亿美元 D 轮融资，并与日产、Uber 联合展出了基于日产 LEAF 平台的 Robotaxi 原型车。硬件配置是双 DRIVE AGX Thor + 360 度摄像头 + 环绕雷达 + 前向 LiDAR，软件层则是 Wayve 自研的 AI Driver——一套端到端 AI 驾驶系统，不依赖高精地图。

计划是 2026 年底在东京启动试点，逐步扩展到 10+ 城市。

Wayve 的路线与中国方案有一个有趣的差异：它更强调 "embodied AI" 的概念——不是把自动驾驶做成一个工程问题去堆模块，而是训练一个能"理解物理世界"的 AI 系统，让它学会开车。这与 NVIDIA 自身的 Alpamayo 理念高度一致。

再加上 Uber 28 城的 Robotaxi 计划，以及奔驰 S 级 L4-ready 的量产方案，L4 自动驾驶正在从 PPT 中的愿景，进入商业落地的前夜。当然，中国的公司在 L4 也未掉队，小马，文远，百度，都已交出不错的战绩，也有想哈啰这样的新鲜血液，L4的商业化的黎明来了！

四、五个"行业共识"：横向对比之后，我们看到了什么

把上面所有分享放在一起做一次横向扫描，有五个趋势浮出水面：

共识一：端到端成为绝对主流。 从理想到小米，从卓驭到元戎再到文远，几乎每家的分享都围绕"端到端"展开。从感知到决策的一体化模型，已经不是"要不要做"的问题，而是"怎么做得更好"的问题。模块化的上一代架构，正在被快速替代。

共识二：VLA 统一架构成为新范式。 理想的 MindVLA-o1、卓驭的 VLA World Model、元戎的 40B VLA、NVIDIA 的 Alpamayo，多家背景迥异的公司殊途同归——都在用 Vision-Language-Action 的统一架构做自动驾驶。VLA 不再是论文里的概念，它正在成为行业的"通用语言"。

共识三：世界模型 + RL 成为技术新组合。 理想的隐世界模型 + 闭环强化学习、小米的 Genesis 世界模型 + RL 框架，不约而同地走向了"世界模型用于想象 + 强化学习用于优化"的技术组合。卓驭也将隐空间推理作为其 VLA World Model 的核心推理方式。这代表了一种更高阶的追求：模型不仅要会"反应"，还要会"想象"和"推理"。

共识四：开放模型成为主旋律。 黄仁勋在开放模型圆桌上说了一句很有意思的话：**"Proprietary versus open is not a thing. It's proprietary AND open."** Alpamayo 的开放后训练、1700+ 小时数据集的开源、Cosmos 世界模型的开放——英伟达在用实际行动推动"开放 + 专有并行"的模式。

共识五：仿真数据工厂正在替代真实路测。 "生成式仿真时代"——Sanja Fidler 的这句话，可能是 GTC 2026 上被低估的最重要判断。当 NuRec 可以从真实数据重建仿真场景，当 AlpaDreams 可以实时生成物理感知的驾驶环境，当理想构建了前馈式 3DGS 世界模拟器、小米自研 Genesis 世界模型、文远推出 WeRide GENESIS 仿真平台——**"采集车跑一万公里"的时代，正在被"GPU 算一万小时"取代。**

五、聊聊我们自己：接下来怎么办

说了这么多行业和公司的事，最后还是想聊回我们自己。

坦白讲，看完这些分享，笔者心态挺复杂的——一方面觉得方向越来越清晰了，另一方面也很难不焦虑：技术迭代这么快，我们到底跟不跟得上？

焦虑归焦虑，但坐着也不是办法。以下是笔者看完 GTC 之后给自己列的几条 TODO，跟大家分享一下，也算互相打打气。

VLA 这棵技能树，得开始点了。 不是说看几篇论文就行。Alpamayo 1.5 开源了、后训练脚本有了、1700+ 小时数据也摆在那——从跑通推理到 SFT 微调，到 RL 后训练，到车端部署，整条链路都能自己上手。笔者自己也在啃，说实话，动手跑一遍比读十篇综述涨的功力多。

RL 的重要性，被严重低估了。 小米的 Reinforced Cognitive、理想的 RL 闭环、Alpamayo 的 RL 后训练——强化学习在自动驾驶里的戏份越来越重。但真正难的不是算法本身，而是怎么设计奖励函数。"安全-合规-效率-舒适"这四个维度怎么量化、怎么平衡、怎么防止 reward hacking——搞明白这些，可能比多会一个新架构更有竞争力。换句话说，以后除了"调参侠"，可能还需要一批"奖励工程师"。

仿真能力，真的该补了。 "算力即数据"不再是口号。NuRec 的 3D Gaussian Splatting、AlpaSim 的开源框架、理想的前馈式 3DGS 世界模拟器、小米的 Genesis 世界模型——这些工具和方法都已经触手可及。笔者有个直觉：再过两年，会做仿真的工程师，身价可能和会训模型的不相上下。

别把自己锁死在自动驾驶里。 GTC 上有个容易被忽略的信号：自动驾驶 VLA 和机器人 VLA 正在趋同。NVIDIA 的 GR00T N2（人形机器人"世界动作模型"）和 Alpamayo（自动驾驶推理型 VLA），底层架构高度相似。我们在自动驾驶上积累的端到端、世界模型、RL 经验，天然能迁移到机器人领域——反过来也一样。多看看隔壁赛道，说不定哪天就用上了。

最后，别光看，动手。 Alpamayo、Cosmos、Physical AI AV Dataset——英伟达正在把自动驾驶的"基础设施"一件件开源出来。与其刷信息流刷到焦虑，不如挑一个项目跑起来。能跑通、能改、能微调的开放项目，就是最好的学习素材。把手弄脏，比什么都管用。

写在最后

回看 GTC 2026 四天的密集输出，笔者认为最贴切的一个词是 —— 共振。

这不是某一家公司的独角戏。当英伟达拿出 Alpamayo 推理型 VLA，理想系统分享 MindVLA-o1 的五大创新与物理 AI 愿景，小米亮出 Reinforced Cognitive 四大核心支柱，卓驭勾勒从 VLA 到原生多模态基础模型的演进路线，元戎用 40B 参数 VLA 和 20 万辆量产数据说话，文远展示双 Thor 的 L2-L4 贯通方案，Wayve 带着 15 亿美元融资和端到端 Robotaxi 原型车走上展台——整个行业在同一方向上产生了共振。

这种共振带来了效率：技术路线趋同意味着工具链可以复用、人才可以流动、经验可以迁移。但硬币的另一面是：当所有人都在做端到端 VLA，差异化的壁垒到底在哪？

是数据？规模最大的公司未必有最好的数据质量。是算力？英伟达已经把算力做成了标准品。是模型架构？大家正在快速趋同。

或许，真正的差异化不在技术本身，而在于对真实世界的理解深度——哪些 corner case 是致命的、哪些交互模式是文化特异的、怎样的驾驶行为是用户真正需要的。这些东西，不在论文里，不在 GPU 上，只在真实道路的无数个日日夜夜中。

GTC 2026 给出了方向，但没有给出答案。答案在路上 —— 字面意义上的。

原文链接：https://mp.weixin.qq.com/s/lbU3ve_4mw3GWIOBFtUE0Q