今天分享2最新篇具身智能(Embodied AI)世界模型(World Model)和安全挑战的系统性综述



🌏 为什么你需要关心“世界模型”?

Fig-1 论文整体框架
图1:世界模型的三大分类轴——功能、时间、空间
🧩 三轴 taxonomy:给每篇论文贴「坐标」

Table-I 机器人领域代表方法
表1:机器人/通用域代表方法「坐标」一览(对应论文 Table I)
维度 | 选项 | 一句话释义 |
|---|---|---|
功能 | Decision-Coupled | 为「决策」量身定做,强耦合策略 |
General-Purpose | 通用视频生成器,下游任务即插即用 | |
时间 | Sequential | 自回归,一步一帧,省显存但误差会累积 |
Global | 一次预测全序列,速度快但吃算力 | |
空间 | GLV / TFS / SLG / DRR | 从「一把向量」到「3D 高斯」,保真度递增、效率递减 |

Table-II 自动驾驶代表方法
表2:自动驾驶域代表方法「坐标」一览(对应论文 Table II)
📊 性能擂台:像素生成、场景理解、控制任务
1️⃣ 像素生成 - nuScenes 视频
表4:nuScenes 视频生成排行榜2️⃣ 场景理解 - 4D Occupancy 预测
指标:mIoU↑
- COME(GT ego)平均 mIoU 34.23%,领先第二名 7 个点
结论:给「真值轨迹」当外挂,长期预测直接起飞
表5:Occ3D-nuScenes 4D Occupancy 预测(对应论文 Table V)3️⃣ 控制任务 - DMC/RLBench
- DreamerV3 在 5M step 内 20 任务平均 823 分,依旧能打
- VidMan 在 RLBench 18 任务平均成功率 67%,把「视频扩散+IDM」玩出花

Table-VI DMC 控制得分
表6:DMC 控制任务得分

Table-VII RLBench 操作成功率
表7:RLBench 操作成功率

🚧 具身智能Agents安全挑战

自动驾驶或机器人领域中世界模型的示意图。当前观测和条件被用于预测未来观测,任务包括新场景(黄色)或控制动作(蓝色)的生成。我们的病理标准使得能够对这两个任务生成的输出进行安全性评估。
Visual Quality:MagicDrive-DiT 生成的帧出现模糊与失真
Temporal Consistency:Open-Sora 的时序不一致导致物体“闪现”
Traffic Adherence:Comsos 违反交通规则(红灯通行)
Physical Conformity:Vista 出现车辆漂浮的物理违规
Condition Consistency:This&That 输出与文本提示不符

(a) RoboGen 抓取姿态异常
(b) Octo 轨迹与指令条件不一致 (c)(d) MILE 产生碰撞与物理违规

文章转载自公众号:PaperAgent
原文链接:https://mp.weixin.qq.com/s/hhR01dJ0MdoevlqaGptfBg
