论文笔记28:HE-DRIVE--引入VLM打分和扩散策略的端到端智能驾驶
HE-DRIVE: HUMAN-LIKE END-TO-END DRIVING WITH VISION LANGUAGE MODELS
,参考[自动驾驶] End2End 论文,地平线系列2:SparseDrive,HE-DRIVE - 知乎
动机
主要专注于轨迹预测的时序一致性和舒适性,为此引入具有更好时序一致性的扩散策略来生成轨迹,并由基于规则和VLM打分结合的方式选择轨迹。
方法

主要由三个模块组成:
Sparse perception:复用了之前方法SparseDrive里的做法,包括detection,tracking和mapping等操作编码一定长度的时序窗口内多视角图像中的信息。
3D Representations: Planner用的是CNN范式下的diffusion policy,输入的condition是除了前面模块的感知结果,还有自车状态和历史预测轨迹,历史轨迹中包括了位置,速度,加速度,yaw。输出的噪声维度为 [B,Na,Ti,P] ,其中B是batch size,Na是锚点数量(轨迹数量?),Ti是轨迹点之间的时间间隔, i=0.5,1,1.5,2,2.5,3 ,P是位置 (x,y) 。dp的优势在于能够建模轨迹中的多模态,且轨迹生成上比较丝滑,时序一致性比较好。
VLM引导的轨迹评分模块:首先设置了一个基于规则的轨迹打分模块,同时评估输出轨迹的安全度和舒适度:



每个指标包括许多细分指标,而VLM的作用就是对这些指标的权重进行调整,以选出最合适的轨迹。

实验
训练时先分别训练感知和planner模块,然后再联合训练。在Nuscenes,OpenScene和真实数据集上做了实验。