一份最新具身智能中的世界模型&安全综述

大家好，我是PaperAgent不是Agent
今天分享2最新篇具身智能（Embodied AI）世界模型（World Model）和安全挑战的系统性综述

🌏 为什么你需要关心“世界模型”？

具身 AI （Embodied AI）的核心痛点是“我动之后，世界会变成什么样？”世界模型（World Model）就是智能体的“脑内小宇宙”——它先模拟未来，再决定当下。从 Dreamer 到 Sora，从机器人到自动驾驶，世界模型正在统一感知→预测→决策的全链路。这篇 2025 年 10 月发布的综述，首次用三维坐标轴把散落一地的文献重新拧成一股绳，堪称“具身 AI 地图”。

Fig-1 论文整体框架

图1：世界模型的三大分类轴——功能、时间、空间

🧩 三轴 taxonomy：给每篇论文贴「坐标」

Table-I 机器人领域代表方法

表1：机器人/通用域代表方法「坐标」一览（对应论文 Table I）

维度	选项	一句话释义
功能	Decision-Coupled	为「决策」量身定做，强耦合策略
	General-Purpose	通用视频生成器，下游任务即插即用
时间	Sequential	自回归，一步一帧，省显存但误差会累积
	Global	一次预测全序列，速度快但吃算力
空间	GLV / TFS / SLG / DRR	从「一把向量」到「3D 高斯」，保真度递增、效率递减

Table-II 自动驾驶代表方法

表2：自动驾驶域代表方法「坐标」一览（对应论文 Table II）

📊 性能擂台：像素生成、场景理解、控制任务

1️⃣ 像素生成 - nuScenes 视频

表4：nuScenes 视频生成排行榜

2️⃣ 场景理解 - 4D Occupancy 预测

指标：mIoU↑
COME（GT ego）平均 mIoU 34.23%，领先第二名 7 个点
结论：给「真值轨迹」当外挂，长期预测直接起飞

表5：Occ3D-nuScenes 4D Occupancy 预测（对应论文 Table V）

3️⃣ 控制任务 - DMC/RLBench

DreamerV3 在 5M step 内 20 任务平均 823 分，依旧能打
VidMan 在 RLBench 18 任务平均成功率 67%，把「视频扩散+IDM」玩出花

Table-VI DMC 控制得分

表6：DMC 控制任务得分

Table-VII RLBench 操作成功率

表7：RLBench 操作成功率

🚧 具身智能Agents安全挑战

具身人工智能的迅猛进展，凸显了对更先进、更一体化模型的迫切需求——这些模型必须能够感知、解读并预测环境动态。在此背景下，世界模型（World Models, WMs） 被提出，旨在赋予具身智能体预见未来环境状态并填补知识缺口的能力，从而增强其规划与执行行动的水平。

自动驾驶或机器人领域中世界模型的示意图。当前观测和条件被用于预测未来观测，任务包括新场景（黄色）或控制动作（蓝色）的生成。我们的病理标准使得能够对这两个任务生成的输出进行安全性评估。

然而，当模型与具身智能体深度耦合时，确保预测结果对智能体自身及环境均安全便成为根本前提。本文围绕自动驾驶与机器人两大领域，对世界模型进行了全面的文献综述，并特别关注场景生成与控制生成任务的安全隐患。开展了实证分析：收集并检验当前最先进模型的预测输出，识别并归类常见故障（文中称为 pathologies），并对结果给予量化评估。

图 2：当前最优（SoTA）世界模型在场景生成任务中的典型故障示例。

Visual Quality：MagicDrive-DiT 生成的帧出现模糊与失真
Temporal Consistency：Open-Sora 的时序不一致导致物体“闪现”
Traffic Adherence：Comsos 违反交通规则（红灯通行）
Physical Conformity：Vista 出现车辆漂浮的物理违规
Condition Consistency：This&That 输出与文本提示不符

图 3：当前最优世界模型在控制生成任务中的典型故障示例。
(a) RoboGen 抓取姿态异常
(b) Octo 轨迹与指令条件不一致 (c)(d) MILE 产生碰撞与物理违规

文章转载自公众号：PaperAgent

原文链接：https://mp.weixin.qq.com/s/hhR01dJ0MdoevlqaGptfBg