1/16算力撼动SOTA！MAD以极低成本实现顶尖驾驶世界建模

自动驾驶的世界模型，不仅要 “画得像”，更要 “动得对”—— 车辆交互、行人运动、场景演化都得符合物理与社会规则，而多数通用视频生成模型，更擅长外观逼真，却很难稳定地建模多智能体之间的结构化运动关系。

为了弥补这一差距，近年的自动驾驶世界模型往往选择“大力出奇迹”：用海量驾驶数据、长时间算力，把通用模型强行拉进驾驶领域。但这种方式成本极高，也很难复用通用模型已有的能力。

这篇来自 EPFL （洛桑联邦理工学院）联合法雷奥的工作 MAD，提出了一个更克制、也更现实的问题拆解方式：

如果先把“怎么动”这件事单独想清楚，再去生成外观，会不会更高效？

1—把驾驶世界“拆开想” 先想怎么动，再想长什么样

这篇工作的出发点，其实并不复杂。

作者注意到一个长期被忽略的问题：让模型生成“看起来像真的”驾驶视频，并不等于让它真正理解驾驶世界是如何运转的。在真实交通场景中，最关键的并不是路面纹理有多清晰，而是多辆车、行人之间的运动关系是否合理，是否符合基本的物理和交通直觉。

于是他们借鉴了动画制作中的一个常见流程。动画师在正式渲染之前，往往会先做一版“动作分镜”，只用极简的线条确定角色如何移动、如何互动，等动作逻辑成立后，再去补充外观细节。

MAD 的核心思路正是如此：把“世界怎么动”和“世界长什么样”这两件事分开处理。

具体来说，整个方法分为两个阶段。

第一阶段，模型只负责预测“怎么动”。它生成的不是彩色视频，而是一种姿态视频：背景是黑的，画面中只保留车辆、行人和车道线的结构轮廓，用来描述它们的运动轨迹和相互关系。这一步的目标不是好看，而是确保运动本身合理。

图1｜姿态视频一览（主要体现为人或者车辆的骨架）©️【深蓝AI】编译

第二阶段，在已经确定好的运动结构上，模型再生成最终的 RGB 视频，把真实的外观、光照和细节补全出来。

为了实现这一点，作者并没有重新训练一个复杂的新模型，而是复用了现有的视频扩散模型，只通过轻量的参数适配，让同一个模型在“预测运动”和“生成外观”之间切换角色。

换句话说，MAD 并不是教模型“画得更逼真”，而是先教它把驾驶世界的动态逻辑想清楚。

图2｜这张图细化了 MAD 中两个核心模型的训练流程。左侧展示的是运动预测模型：姿态视频在扩散过程中被逐步加噪，并与文字描述、首帧图像以及自车运动信息一起输入模型，最终学会还原合理的运动结构。右侧是外观生成模型：它在接收同样的文字条件和姿态信息的同时，只对“骨架相关”的部分加入噪声，从而学会在不完美运动预测下依然生成稳定、真实的 RGB 视频。推理时，这两个模型按顺序工作，前者的输出直接控制后者的生成©️【深蓝AI】编译

2—技术亮点三连

用“姿态视频”承载驾驶世界的运动结构

MAD 引入了一种中间表示形式——姿态视频，用简化的骨架结构来描述车辆和行人的运动状态。这种表示不关注纹理或颜色，只关心“谁在动、怎么动、彼此之间是什么关系”，因此更接近驾驶世界中真正决定安全与规划的核心信息。这相当于把“动作结构”从像素细节中单独抽离出来，让模型先学会理解行为本身。

图3｜这张对比图解释了作者为何引入姿态作为中间表示。传统 HD 地图虽然抽象，但难以扩展；全景分割则缺乏三维结构，对行人细节尤其不友好。相比之下，基于姿态的表示既保留了三维信息，又以“对象”为中心组织结构，更适合用来同时做运动预测和视频生成，是一种更贴近驾驶行为本身的表达方式©️【深蓝AI】编译

最大限度复用通用视频模型，而不是推倒重来

无论是文本提示、初始画面，还是中间的姿态视频，MAD 都通过同一个编码器映射到统一的视觉潜空间中。这意味着模型始终在自己熟悉的表示空间里工作，而不是被迫适配一套全新的、驾驶专用的数据格式。结果是，模型可以直接继承通用视频生成模型已有的能力，用极少的额外训练，就适配到复杂的驾驶世界建模任务。

图4｜这张图展示了 MAD 使用的一种自车运动视觉表示方式。通过在相机周围放置一个带纹理的静态球体和粒子，系统可以从背景纹理的相对运动中推断车辆的转向和速度变化。简单来说，背景的旋转反映方向变化，粒子的视差反映速度大小，让模型在不依赖显式数值输入的情况下，也能“看懂”自车运动状态©️【深蓝AI】编译

主动考虑“预测不完美”的现实情况

在真实应用中，第一阶段生成的运动预测不可能永远准确，姿态信息也会存在噪声和偏差。

MAD 在训练外观生成阶段，刻意对与骨架相关的表示加入扰动，而保持背景信息相对稳定，从而提升模型对不完美运动输入的容忍度。这种设计让系统在行为层面更贴近真实世界：即使感知有误差，模型依然能维持合理的世界演化。

3—实验与表现

在实验上，作者重点验证了两件事：效率与世界建模质量。

在 SVD 骨干上，MAD 只使用了 VISTA 不到 1/12 的数据、约 1/16 的算力，就能在人工偏好评测中达到接近甚至可比的生成质量。

当方法扩展到更强的 LTX 模型后，MAD-LTX 在所有开源驾驶世界模型中获得最高的人类偏好评分，在运动合理性与视觉质量上都显著领先。

图5｜这是一组人工偏好对比实验的结果。研究者让人类评审在两两对比中选择更“可信”的生成结果，统计每个模型被偏好的比例。可以看到，MAD-LTX 在大多数对比中都占据优势，而图中带“*”的模型则依赖私有数据和更高算力，这进一步凸显了 MAD 在效率上的优势©️【深蓝AI】编译

更有意思的是规划能力评测：

在不进行闭环控制的情况下，MAD-LTX 在 5 秒预测中取得更低的轨迹误差，同时保持更高的轨迹多样性。这说明，把运动建模从像素空间中“抽离”出来，反而更有利于学习真实的动态结构。

视频详情

从结果来看，这套方法并不是“画得更花”，而是在具身层面更像一个会推演世界的系统。

4—总结与延伸

MAD 提供了一种很有代表性的答案：

在复杂的具身场景中，与其追求一步到位的端到端生成，不如先明确哪些信息真正决定“行动是否合理”。

通过将运动与外观解耦，MAD 不仅显著降低了训练成本，也让世界模型更接近一种可解释、可控、可推理的结构。

这对于自动驾驶、机器人仿真乃至更广泛的具身智能系统，都是一个值得反复琢磨的方向。

当模型开始先“想清楚怎么动”，再决定“世界长什么样”，

也许我们离真正可用的世界模型，又近了一步。

论文标题：MAD: Motion Appearance Decoupling for Efficient Driving World Models

论文作者：Ahmad Rahimi, Valentin Gerard, Eloi Zablocki, Matthieu Cord, Alexandre Alahia

论文链接：https://arxiv.org/pdf/2601.09452

文章转载自公众号：深蓝AI

原文链接：https://mp.weixin.qq.com/s/MVWzyT9JVX-hT35pbVLnow