目前大语言模型的多模态能力和推理迅速提升,在各行业垂直领域的运用不断涌现。作者调研了目前自动驾驶领域大语言模型的运用,主要论文如下,先看整体趋势:
双系统(e.g. 理想的快慢系统)
分层规划
多模态大模型(能理解视觉和文本的输入)
人机交互(人机交互新范式)
Chain-of-Thought(思维链)
fine-tune 优于 in context learning
综述Survey
A Survey on Multimodal Large Language Models for Autonomous Driving
LLM4Drive: A Survey of Large Language Models for Autonomous Driving
主要方案(实车部署方案):

按照实际排序
不需要部署,训练时用LLM的方案见:保罗哥@知乎:综述:LLM/VLM/VLA在训练中增强端到端(E2E)自动驾驶模型
Dilu
Dilu: A knowledge-driven approach to autonomous driving with large language models

论文:https://arxiv.org/pdf/2309.16292
作者:Licheng Wen(上海AI实验室)
这是第一个结合知识驱动的自动驾驶框架:

Data-Driven(数据驱动)和Knowledge-Driven(知识驱动)的区别
当前很多数据驱动的E2E模型主要是去fit喂给模型训练的数据分布和数据量,主打一个直觉拟人响应,其实缺乏对环境的理解,限制了轨迹的生成能力(没见过就不会)。
DiLu架构包含4个核心模块:
Environment: 环境
Reasoning: 获取对环境的描述, 从Memory模块获取一些记忆,然后用prompt genrerator 生成一些提示词发给独立的LLM, decision decoder 会把LLM的输出解码成动作。
Reflecton: 主要是为了持续学习,识别并纠正错误后给到Memory模块。
Memory: 论文对比了带有该模块后,性能有明显的提升。
论文主要是进行理论和框架研究,输出的的action都meta action,然后在仿真器里进行了粗略的验证和demo,和实践落地还有距离。
论文:https://arxiv.org/pdf/2307.07162
提出自动驾驶系统的3个核心能力:
reasoning
interpretation
memorization
HRADLLM
Hybrid Reasoning for Autonomous Driving with Large Language Models
论文:https://arxiv.org/pdf/2402.13602
作者:Mehdi Azarafza(德国多所高校)
传统的感知(Object Detection)和 LLM的规控模块的组合。感知的结果用prompt(提示词)喂给大模型,询问行为解释和控制信号。在CARLA里面进行了简单的验证。
DriveGPT4
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

论文:https://arxiv.org/pdf/2310.01412
https://tonyxuqaq.github.io/projects/DriveGPT4/
作者:许振华(香港大学)+Yujia Zhang(浙大)
这项研究的贡献在于初步证实了多模态大模型在自动驾驶领域的应用潜力。它不仅可以直接输出低层次的控制序列,还具备在驾驶过程中实时解说或回答问题的能力。文中提出了一个简洁的架构:利用 Visual Encoder(基于 CLIP)对视频进行编码,通过 Text Tokenizer 对自然语言进行编码,随后将这些信息输入到大模型(作者选择了 LLaMA2)中进行处理。最后,通过 Text De-Tokenizer 解码文本,生成行为解释以及未来的控制序列。
大模型的传统,训练包含两个阶段:
Pretraining: video-text alignment
Mix-finetune: 学界的智驾数据量毕竟还是太少,存在很多的幻觉和误检,所以混用了通用数据
DriveAsYouSpeed
Drive as You Speak: Enabling Human-Like Interaction with Large Language Models in Autonomous Vehicles

(https://arxiv.org/pdf/2310.08034)
论文: https://arxiv.org/pdf/2309.10228
作者:Can Cui
未来的自动驾驶车辆不仅要实现乘客的运输,还要能够与乘客进行自然交互,并适应他们的需求,使旅程更加舒适、高效和愉悦。这需要将人类中心设计与先进的人工智能能力相结合。LLMs在自动驾驶中存在潜在优势:如语言交互、上下文理解、零样本规划(zero-shot planning)、持续学习和个性化体验等。
GAIA-1
GAIA-1: A Generative World Model for Autonomous Driving

论文:https://arxiv.org/pdf/2309.17080
作者:Anthony Hu (wayve)
Gpt-driver
Gpt-driver: Learning to drive with gpt

论文:https://arxiv.org/pdf/2310.01415
作者:Jiageng Mao
本文把GPT 当做MotionPlanner使用,我猜是受限于当时GPT3.5只能处理纯文本,现在用多模态的模型就可以直接地接入图像了,长尾感知能力是LLM的优势。为了激发LLM的数值推理潜力,作者提出了一种提示-推理-微调策略。
提示:把自车的当前状态和其他目标的预测转成自然语言,作为提升输入模型 (GPT3.5只能处理纯文本)
经典的CoT推理,提升模型的推理分析能力
通过人类驾驶轨迹进行微调,以确保与人类驾驶行为的一致性。
这一策略使GPT-3.5能够以厘米级误差预测精确的航点坐标,并通过自然语言描述其内部决策过程。
SurrealDriver
Designing LLM-powered Generative Driver Agent Framework based on Human Drivers’ Driving-thinking Data

论文:https://arxiv.org/pdf/2309.13193
https://github.com/AIR-DISCOVER/Driving-Thinking-Dataset/tree/main
作者:Ye Jin(清华)
SurrealDriver框架通过引入记忆模块、安全机制和教练代理,显著提高了模拟驾驶代理的安全性、连贯性和人类相似性。该框架为未来基于LLM的驾驶代理开发提供了新的思路,并为构建更真实的交通环境提供了有价值的见解。SurrealDriver框架基于LLM构建,能够感知复杂交通场景并提供现实的驾驶操作。
关键模块:
原子场景理解与原子动作:将驾驶场景分解为离散参数,使LLM能够理解复杂情况,并将驾驶动作分解为基本操作,以便代理组合这些操作以执行复杂驾驶行为。(meta action: lane change left, stop, accelerate etc.)
短期驾驶记忆:存储代理的近期驾驶行为,帮助其保持决策的一致性,并组合基本驾驶操作以执行复杂驾驶行为。长期驾驶指南:通过教练代理(CoachAgent)评估驾驶代理的行为,并提供人类驾驶者的行为指南,帮助代理积累驾驶经验并持续改进驾驶技能。
严格的安全标准:确保模拟驾驶过程中的安全性,通过安全冗余机制避免危险操作。(文中写的非常简单)
教练代理(CoachAgent):研究者通过采访24名司机(包括专家司机和普通司机),收集了详细的驾驶行为描述,并将其作为“思维链”提示,用于构建教练代理。这些提示帮助驾驶代理评估和改进其驾驶行为。这个数据集并没有分成场景分析,决策和动作等部分,论文中缺乏对这个数据集的详细使用说明。
Senna 地平线
Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving


论文:https://arxiv.org/pdf/2410.22313
作者:Bo Jiang(华科+地平线)
Senna 亮点颇多,其主要贡献如下:
高效的模型架构设计:Senna 的架构支持多图像输入,并通过环视提示和图像 token 压缩策略,有效提升了模型对驾驶场景的感知和理解能力。
分层规划策略:Senna 采用分层规划架构,将高级决策与低级轨迹预测分离。其中,Senna-VLM 负责生成自然语言中的高级决策指令,而 Senna-E2E 则根据这些指令生成具体的规划轨迹。这种结构化方法充分发挥了大模型在常识和逻辑推理方面的优势。
三阶段训练策略:Senna 提出了一种三阶段训练方法。首先,通过单图像数据训练 Driving Vision Adapter 模块,保持其他模块参数不变;其次,基于规划导向的 QA 对 Senna-VLM 进行微调;最后,仅使用元动作规划 QA 进一步微调 Senna-VLM。
多图像编码与环视提示:Senna-VLM 接收多图像输入,并通过 Driving Vision Adapter 模块对图像特征进行编码和压缩,减少图像 token 数量,提升模型效率和稳定性。此外,Senna 还针对环视场景设计了多视图提示,帮助模型区分不同视角的图像特征,构建空间理解。
规划导向的问答数据:Senna 构建了一系列规划导向的问答(QA),涵盖驾驶场景描述、交通参与者行为预测、交通信号识别以及自车决策等。这些 QA 可通过自动化流程大规模生成,无需人工标注,显著增强了模型对驾驶场景的理解能力。
强大的跨场景泛化能力:实验表明,Senna 在 nuScenes 数据集和 DriveX 数据集上均取得了顶尖的规划性能。通过在 DriveX 数据集上预训练并在 nuScenes 数据集上微调,Senna 的平均规划误差降低了 27.12%,碰撞率降低了 33.33%。
DriveVLM(Dual)理想
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

论文:https://arxiv.org/abs/2402.12289
作者:清华大学交叉信息院赵行老师研究组MARS Lab与理想汽车合作
https://tsinghua-mars-lab.github.io/DriveVLM/
论文简介:DriveVLM 是一种基于大模型的高阶自动驾驶创新方案。它以视觉语言大模型为核心,并结合端到端模型构建了双系统架构。在复杂驾驶场景中,DriveVLM 展现出了卓越的性能,成为首个成功部署于车辆的自动驾驶大模型。

标注
主要贡献:
DriveVLM 和 DriveVLM-Dual:DriveVLM是具有自动驾驶domain knowledge的VLM, 具有Chain-Of-Thought 的逻辑推理链,包括数据也是这样设计的,分成三层:scene description, scene analysis, and hierarchical planning,最后给出meta action甚至轨迹点。DriveVLM-Dual是实际量产过程中,VLM推理时间长,只能作为慢系统,所以和传统的自动驾驶系统(实时系统)协作。
SUP-AD数据集,就是上面说的CoT的问答对
量产车部署验证,行业内首创

DriveVLM-Dual的描述
这个DriveVLM-Dual的双系统是怎么合作的?
VLM可以和一个传统pipline的自动驾驶系统(可以是rule-based 也可以是NN的)配合,VLM接受pipline系统的3D 框,然后和自己检测的2D critical objects 交叉校验,能匹配上的会在自然语言层面加入prompt作为重点专注对象,匹配不行就只通过图像encode进来(应该是VLM会有误检和幻觉),VLM会通过CoT进行推理输出低频轨迹会给到实施的pipline系统:
rule-based planner: 作为初始解
NN planner: 作为input query, 类似prompt
低频轨迹是optional的,也就是没有也不至于影响安全,不会block这个pipline系统。
实车效果怎么样吗?
还不成熟,主要是产品噱头(叠加这个attention的可视化也是够副驾玩的了),提升了理想的科技感品牌形象,说实在的有点大炮打蚊子,没有把VLM真的做出产品价值,可能只是机械地调节车速?实际效果不太行:
驶离公交车道:高频误检(这是vlm的问题,还没有3D框可以交叉校验),还过于相信vlm, 不顾安全风险强行变道
上下主路的提升(应该只有提示?)
施工区域的提示(应该只有提示?)
学校路段的提示(应该只有提示?)
总结
理想是第一个把22亿参数的VLM部署到了实车OrinX上,不过未实现真的产品价值,尚待诸位努力!
文章转载自公众号:焉知汽车
作者:保罗哥@知乎(智驾先行者,AI摆渡人,AGI信仰者)原文链接:https://mp.weixin.qq.com/s/hUvTvmtiSaP8VVhZ8Trqtw
