最近车企的语言包里面出现了越来越多人工智能术语。再加上窗明几净的卡座,闪烁着程序代码的带鱼曲面屏,和手捧咖啡讨论算法的员工,以及时不时蹦出的VLA,LLM,VLM,模型,算法这些词汇,从外观和氛围上几乎无法区分新势力车企和高科技IT公司。

图理想汽车MindVLA大模型架构图,右上角的multi-agent trajectories依靠扩散模型生成,图片来自理想汽车
理想汽车使用Diffusion Planner与RLHF(人类反馈强化学习)联合训练,扩散模型(Diffusion Model)通过利用离线数据捕捉轨迹分布规律,能够生成复杂的优化轨迹。不同于传统的自回归方法,基于扩散的规划器通过一系列去噪步骤可以整体生成完整的优化轨迹,无需依赖前向动力学模型(主要是牛顿力学),有效解决了前向模型的局限性。前向模型的局限性主要是过分理想化,现实世界中存在大量的不确定性因素,如环境的随机干扰、传感器测量误差以及系统本身的参数变化等。前向模型通常难以准确地考虑这些不确定性,从而导致预测结果与实际情况不符。

图扩散模型示意图,来自论文《Diffusion Models for Reinforcement Learning: A Survey》
2025年1月28日,毫末智行联合清华大学AIR智能产业研究院等机构在ICLR 2025 上发布了Diffusion Planner。该算法基于Diffusion Transformer设计了自动驾驶规划模型架构,能高效处理复杂场景输入,联合建模周车运动预测与自车规划中的多模态驾驶行为。它利用扩散模型强大的数据分布拟合能力,精准捕捉复杂场景中周车与自车的多模态驾驶行为,解决了现有基于学习的规划方法对后处理的严重依赖问题。毫末团队已将该算法进入实车测试阶段,率先实现端到端方案在末端物流自动配送场景的应用落地。
2025年4月22日,华为在上海举办的智能技术大会上发布了乾崑智驾 ADS 4。其采用世界引擎 + 世界行为模型架构(WEWA 架构),通过云端的 AI 生成难例扩散模型,据报道模拟出了场景密度是真实世界1000倍的极端路况,包括暴雨中的鬼探头、施工路段突然变道等,一定程度上解决了行业在难例数据上的瓶颈问题,让自动驾驶系统在训练中遇到的极端情况远超现实,提升了算法的可靠性。
一、直观解析扩散模型原理
扩散模型(Diffusion Model)是一种基于概率模型的生成式模型,其灵感来源于物理中的扩散现象。正向扩散是对任何类型的数据(图像,声纹,轨迹等等)从清晰到模糊的过程,反向扩散是从模糊恢复清晰的过程。
在物理扩散现象中,比如将一滴墨水滴入水中,墨水分子会从浓度高的区域(墨水滴所在位置)向浓度低的区域(周围的清水)扩散,随着时间推移,墨水在水中逐渐均匀分布,最终整杯水颜色变得均匀,这个过程是不可逆的,系统的熵不断增加,趋向于混乱度更高的状态。
扩散模型的正向过程与之类似,从初始的真实数据样本(如一张清晰图像)开始,逐步向其添加噪声。就像墨水滴在水中扩散一样,噪声从低强度逐渐增加到高强度,数据样本也从具有明确结构和特征的状态逐渐变为更接近随机噪声的状态,这个过程也是一个熵增的过程,数据的有序性逐渐降低,最终变成类似于服从标准正态分布的噪声数据。
但是物理世界不存在反向扩散过程,在现实的物理世界中,扩散后的墨水很难自动再聚集回原来的一滴墨水状态,因为这违反了热力学第二定律。但在扩散模型的反向过程中,可以类比为一种“逆扩散” 或 “去扩散” 的纯粹想象过程。
1、扩散模型的运行过程
正向扩散过程(Forward Diffusion Process):

在第t步,向xt−1 添加方差为βt 的高斯噪声,得到xt ,其中ϵt 是服从标准正态分布N(0,I)的随机噪声。随着t的增加,xt 逐渐变得更像纯噪声,最终xT 服从标准正态分布N(0,I)。
反向扩散过程(Reverse Diffusion Process):
目标是从纯噪声xT 开始,逐步恢复到原始数据x0 。这是一个去噪的过程,通过学习一个条件概率分布pθ (xt−1 ∣xt )来实现,其中θ是模型需要学习的参数。θ这个参数,就是用神经网络表达的扩散模型的参数集合。
在反向过程的每一步t,根据当前的噪声xt 和模型参数θ,预测出前一步的干净数据xt−1 的分布。具体来说,通过神经网络(通常是 U-Net 等结构)来学习这个映射关系,网络的输入是xt 和时间步t的编码,输出是xt−1 的均值和方差(在一些简单的实现中,方差可以是固定的),即:

随着反向迭代的过程,均值应该趋于稳定不变,方差趋于0,表示最终输出从混沌趋于清晰。
学习过程(Learning Process):
扩散模型的学习过程就是要调整参数θ,使得反向扩散过程能够尽可能准确地从噪声中恢复出原始数据。这通常通过最大化对数似然函数logpθ (x0 )来实现,但直接优化这个目标比较困难。
一种常用的方法是通过变分下界(Variational Lower Bound,VLB)来近似优化。具体来说,引入一个变分分布q(x1:T ∣x0 )来近似真实的后验分布p(x1:T ∣x0 ),然后通过优化变分下界VLB =Eq(x1:T ∣x0 ) [logpθ (x0 )−logq(x1:T ∣x0 )]来间接优化对数似然函数。在实际计算中,VLB 可以分解为多个项,通过对这些项的计算和优化来调整模型参数θ。
在训练完成后,扩散模型就可以根据学习到的反向扩散过程,从随机噪声中生成新的数据样本,这些样本具有与训练数据相似的分布和特征。
2、学习过程中所谓变分下界和变分分布,直观解释如下:
变分下界
想象有一个很难直接计算的东西,比如一个很复杂的数学问题,就像要算出一个超级复杂的图形的面积,但是又没有直接的办法去算。这时候,可以想办法找一个能算的、并且肯定比这个复杂图形面积小的另一个图形的面积来近似它。这个能算的、面积较小的图形的面积就是变分下界。这也是阿基米德计算圆面积的思路。在概率模型里,就是你想知道某个数据出现的概率(像一个很难算的“面积”),但是直接算不出来,就通过一些数学方法找到一个肯定小于这个概率的数值,这个数值就是变分下界。
它可以帮助你了解你所研究的概率模型的一些性质,虽然它不是真实的概率值,但可以通过不断优化它,让它尽可能地接近真实概率,这样就能对原来很难处理的概率模型有更好的理解和把握。
变分分布
假设要研究一群人的身高分布,但是直接去了解每个人的身高很困难。于是就先假设一个比较简单的分布,比如正态分布,来近似这群人的身高分布。这个假设的简单分布就是变分分布。在概率模型中,当你遇到一个很难直接处理的真实概率分布时,你就找一个形式比较简单、容易处理的分布来近似它,这个简单的分布就是变分分布。
作用:通过调整变分分布的参数,让它尽可能地接近真实分布,这样就可以用这个简单的变分分布来代替复杂的真实分布进行各种计算和分析,从而简化问题的处理过程。
而变分两个字体现在哪里?变分是泛函的一个概念,表示在优化过程中,原函数的参数发生变化(比如多项式函数每一项前面的系数),要寻找一族函数的最优参数。
一般的、非变分的优化,原函数始终不变,只是在原函数上寻找某些最优点,比如极小点或者极大点。
在神经网络的学习过程中,其参数θ始终是在调整的,每一组不同的θ就造成一个不同的函数,所以神经网络的训练过程天然地是变分的。
3、U-Net用于扩散模型
提到的U-Net是一种用于图像分割的深度学习神经网络架构,其名称来源于其独特的 U 型结构。

图U-Net网络结构图,图片来自网络
网络结构三部分组成:
编码器(收缩路径):由多个卷积层和池化层组成,类似于传统的卷积神经网络。其作用是对输入图像进行特征提取,通过不断地卷积和池化操作,逐渐降低图像的空间分辨率,同时增加特征通道数,从而捕捉图像中的高级语义信息。例如,在医学图像分割中,编码器可以提取出图像中的器官轮廓、组织特征等信息。
通用结构的U-Net 的输入通常是原始图像,输出是与输入图像具有相同空间尺寸的分割掩码,具体如下:
具体到扩散模型中,U-Net的输入和输出与扩散模型的去噪过程紧密相关,具体如下:
二、 从原理出发解释扩散模型优化轨迹生成
扩散模型(Diffusion Models)轨迹生成的轨迹数据形式通常由具体任务和应用场景决定,可以是一系列航点,也可能是其他形式,以下是一些常见的情况:

图扩散模型逆向扩散用于轨迹优化,图片来自CSDN
图中显见,随着逆向扩散(也就是生成)迭代次数增加,预测的路径逐渐减少并贴近ground truth轨迹(原始训练数据给出的最优轨迹)。
扩散模型在轨迹生成任务中的优化原理,主要涵盖前向扩散、反向去噪和轨迹约束对齐这三个关键核心环节。
本文依据数学原理并结合最新研究成果,对其进行的系统性描述:
1、前向扩散过程:轨迹的噪声破坏
假定存在初始轨迹x0 ,前向扩散过程借助马尔可夫链,以逐步添加高斯噪声的方式进行演变。
随着扩散步骤的不断推进,当达到最终状态时,xT 近似于纯噪声。
轨迹破坏在自动驾驶场景下,扩散步数T 可以用来表征轨迹的鲁棒性测试强度。步数越多,意味着施加的噪声干扰越强,对轨迹鲁棒性的考验也就越严格。
2、反向去噪过程:轨迹的生成优化
去噪网络训练
通过构建神经网络ϵ(θ)来实现对噪声的预测。其优化目标设定为:
从数学原理角度来看,这一优化目标等同于最小化对数似然的变分下界。
轨迹生成的优化特性
渐进式优化:在反向去噪的每一个步骤中,对轨迹进行的去噪操作,本质上相当于对轨迹实施局部性的调整。这种逐步优化的方式,相较于传统的优化方法,能够有效避免陷入局部最优解的困境。
多模态捕获:扩散模型具备强大的能力,能够生成多样化的、切实可行的轨迹。例如,在处理避障路径规划问题时,能够产生多种不同的路径变体,充分展现了其在应对复杂场景时的灵活性和适应性。
3、轨迹约束对齐
主要是物理约束注入,简单说就是增加实时避障矫正。因为各种实时障碍物很难在训练时完全覆盖,需要实时避障,保证在可行的前提下寻找最优轨迹。
通过以下策略对齐优化路径与物理约束:在采样过程中引入拉格朗日乘子(一种在数学模型中引入避障约束的优化方法),强制满足动力学方程或障碍物约束。或者使用投影法将中间轨迹 xt 映射到可行域,保证不会撞上东西。
三、扩散模型在辅助驾驶领域还有哪些应用
除了轨迹生成,扩散模型在辅助驾驶中还有如下应用:

图一个典型的扩散模型用于感知清晰化的过程,图片来自网络
除了以上大场景,本文还想给出一个比较小众但同样重要的场景,摄像头拍摄的图像去雨雾,这个场景真实出现在国内某数一数二汽车集团的算法竞赛上:

图 图像去雨雾前后对比,雨雾也可以视为图像噪音,图片来自网络
雨雾对摄像头的目标识别影响很大,而雨雾又可以视为一种图像噪音。所以去雨雾正好落入扩散模型的处理范围内。
比如2023年在期刊IEEE Transactions on Pattern Analysis and Machine Intelligence上,Ozan Özdenizci、Robert Legenstein撰写的《Restoring Vision in Adverse Weather Conditions with Patch - Based Denoising Diffusion Models》一文提出了一种新的基于补丁的图像恢复算法,该算法基于去噪扩散概率模型,能在恶劣天气条件下恢复图像的清晰度。
作者提出了基于补丁的去噪扩散模型方法,在推理过程中通过对重叠补丁进行平滑噪声估计的引导去噪过程,实现与图像大小无关的图像恢复。
在图像去雪、去雨和去雾以及雨滴去除的基准数据集上进行了实证评估。结果表明,该方法在特定天气和多天气图像恢复方面效果不错,并对真实世界的测试图像具有很强的泛化能力。
四、总结
近些年,随着软件定义汽车和人工智能(大数据)对汽车行业的渗透,可以说术语、概念、数学、代码等等智力负担翻了几倍都不止。
为了应对这种智力负担,笔者认为有如下应对:
简而言之,就是用集体智慧和团队合作来应对海量的、超过单人容量的技术海啸。
文章转载自公众号:焉知汽车
作者:咖啡鱼
原文链接:https://mp.weixin.qq.com/s/7krCbExVM4hCe2aezpgnwg
