机器之心报道

编辑:蛋酱


【资料图】

2023 年,城市 NOA 迎来爆发元年。围绕城市 NOA 的讨论,成为了今年自动驾驶领域最受关注的话题之一。

当众多车企全力推进城市 NOA 的量产落地,重感知、去高精度地图已成为业内公认的趋势。但在实际的车辆运行中,面向复杂多变的路交通环境,在车端部署城市 NOA 需要精准高效的感知融合算法,以满足车规级计算平台的适配,有效解决复杂路况中的各种长尾问题。

这意味着,自动驾驶的感知模块将要迎接更高的挑战,而其中的一个难点在于如何评估「感知结果」与「自动驾驶系统决策规划结果」之间的关系。

众所周知,自动驾驶感知模块的高效评测是自动驾驶技术研发过程中一个非常重要的部分,它直接影响整个智能系统的安全性和可靠性。此前业界的大多数方法仅针对感知模块进行评测,但忽略了感知模块对自动驾驶决策规划行为的整体影响,目前仅有 Waymo、NVIDIA 和多伦多大学对该问题进行了有效探索。

轻舟智航是一家行业领先的自动驾驶通用解决方案公司,2019 年 3 月于硅谷成立,并于同年 11 月落地中国创立总部,迄今已积累了全栈自研的核心技术体系。轻舟智航在去年完成转型,聚焦以中高阶辅助驾驶解决方案服务车企。

在最近的一篇 ICML 2023 论文中,轻舟智航创新地提出了一套考虑全局影响的感知模块高效评测和理论分析框架,极大地推动了自动驾驶领域这一基础性问题的突破。这种从规划器视角出发的框架提供了一种新的方法来评估感知模块对整个自动驾驶系统的影响,从而改进设计和优化感知模块,帮助提高自动驾驶系统的性能和安全性。

论文链接:

https://arxiv.org/pdf/2306.07276.pdf

ICML(International Conference on Machine Learning,国际机器学习大会),与 NeurIPS 和 ICLR 一起,被公认为机器学习和人工智能研究中具有高度影响力的三大主要会议之一。目前,ICML 为 CCF(中国计算机学会)推荐的 A 类会议,同时也是 Core Conference Ranking 的 A* 类会议,被视为推动机器学习发展的重要会议。

研究背景

自动驾驶领域在工业界和学术界在近期均得到了迅速发展。车载感知模块是自动驾驶汽车获取动态环境信息的重要来源。传统的计算机视觉感知任务(如检测、分割、跟踪等)虽然可以直接套用来评价感知模块的性能,但是这些评价方法忽略了感知模块在自动驾驶系统中对系统整体的影响。

事实上,感知模块结果中相似的错误对决策规划控制的影响可能大相径庭:例如同样是静态障碍物的漏检,这种错误发生在正在向前行驶的自动驾驶车辆前方时相对于发生在后方要严重得多。因此整个领域都非常需要一个高效和有效的工具来评价感知模块性能对整个自动驾驶任务的影响。

之前试图解决这个问题的工作大多从自动驾驶的轨迹输出来试图衡量感知误差对自动驾驶系统的影响。一个常见的方法就是通过计算自动驾驶车辆的决策规划在真值和实际感知输入作用下得到的结果的区别来判断影响大小。但是自动驾驶车辆最终行为的改变与最终结果之间的相关性在不少情况下都比较弱,在某些场景下甚至呈负相关,如下图所示:

图中红色箭头表示自动驾驶车辆决策规划在感知真值输入下得到的最优动作轨迹,灰色箭头表示在错误感知下的最优动作轨迹。彩色和灰度的路障分别表示障碍物的真实位置和错误感知位置。在(a)情况下,自动驾驶汽车必须绕行较大的弯路,以绕过错误感知的路障。而对于(b), 自动驾驶车辆虽然需要稍微向右做微小绕道,然而它最终在实际世界里撞上了路障。在这种情况下,尽管行为的改变远远小于(a),但结果却明显更糟(“撞到一个物体” vs “绕了远路”)。

在(c)中,不论是向左还是向右绕道,任何一种方式的结果对 “向前移动” 这一目的来说都没有太大区别;但就时空轨迹而言,行为的变化非常大。在(d)场景里,道路两侧各有一个被误检的路障,但并不会与前进通过的车辆发生碰撞(虽然车辆经过时路障距离车辆很近);在这个有误检的情况下自动驾驶车辆仍然决定保持与真实情况相同的运动继续匀速前进:在感知误差存在的情况下,自动驾驶汽车的最终行为没有改变,但经过两个近距离物体的成本实际上已经改变了决策规划过程,而这些额外的隐藏成本将无法通过仅关注自动驾驶车辆结果行为变化的感知评价指标体现。因此,由于感知错误导致的车辆行为变化并不总是与错误导致的实际后果相关。

之前有限的几个从自动驾驶系统角度评价感知模块性能的工作大多采用类似这样的启发式方法。这些方法会将一些人工总结的先验知识整合到评价系统中,如(Philion et al.,2020)假设感知误差的造成的后果与其导致的规划器输出的时空轨迹变化直接相关,并提出用 KL 散度作为评价指标来衡量后果;但由于没有考虑实际的环境背景,因此并不能准确反映真实交通环境里输入噪声导致的实际代价。

本文希望强调的是通过规划过程来理解感知误差对自动驾驶系统影响的必要性:只有从决策规划的角度,通过理解感知输入噪声对自动驾驶系统造成的实际后果才能有效评估感知误差带来的影响。这种完全通过实际观察者(规划器)的视角来评估待考察事物(感知误差)属性的方法,与经典哲学理论里的先验唯心主义论(Kant, 1781)一致,因此该方法被命名为规划器先验唯心论(Transcendental Idealism of Planner / TIP)。

目前对自动驾驶决策规划过程的研究工作大致可以分为两类,其一是基于效用的方法,其二是非基于效用的方法。前者通过对自动驾驶要实现的具体目标(向目的地接近,遵守交通规则,平滑的车辆运动等)编码来构建一个描述行为与收益的目标函数,并通过求最优化解作为最终的决策规划结果;后者则利用海量数据和深度学习的拟合能力,直接将原始或者被预处理过的传感器数据直接映射为自动驾驶车辆的控制信号。本文重点在探索感知噪声对决策规划的影响,因此主要关注基于效用的规划研究。

理论分析

通过以上推导,可以得到如下结论:

并非环境状态估计或感知中的所有错误对自动驾驶车辆规划都有同等的影响。实际上,只有 PCE 会对 EUM 结果有影响,PIE 完全不会造成任何影响; PCE 的影响既可能是负面的(让规划器低估正确行为选项的优势)也可能是“正面的”(让规划器高估正确行为选项的优势)。

这两个结论都是通过本文提出的理论框架下的分析得到的自然推论结果。

进行数值估计。可以证明,这样的估计方法可以由一致收敛界限(uniform convergence bound)保证指数级别的数值收敛速度。这是一个值得注意的结果,因为指数收敛速度只要求效用函数是有界的,至于效用函数的具体形式(保证了可使用任意函数形式的灵活性)和其中变量的维度完全没有任何限制(因此维度爆炸不会出现)。整个过程的伪代码如下:

实验验证

实验中使用的所有自动驾驶汽车都是基于同一类型的普通乘用车。这些车载自动驾驶系统中的基于效用的模块化规划器已在多个百万人口级别的城市进行了严格的道路测试和广泛的验证。实验中研究者选取了三个基准方法作为参照对象:

(1)在传统端,nuScenes 数据集评分(NDS)(Caesar et al., 2020)将 3D 物体检测的几个传统评分结果结合到一个单一的性能分数中;

(2)SDE 距离加权平均精度(SDE-APD)(Deng et al., 2021)以自动驾驶车辆为空间中心视角的方式更多地关注自动驾驶车辆附近的感知误差(支撑距离误差);

(3)PKL(Philion et al., 2020)则作为自动驾驶车辆基于行为变化指标的代表。

人工合成数据测试

第一组实验的目标是获得各种评测方法对常见感知噪声类型在噪声可控条件下的反应的一些理解。数据集是从真实世界中收集和精心选择的复杂道路测试场景生成。共有 1000 个 5s 长的交通场景,每个场景交通参与者数量在 30-500 之间,含有由专业人员标注的感知真值。

实验中考虑了如下常见类型噪声:

误检(假阳性)错误是在以自动驾驶车辆为中心的一个 70x30 米的矩形范围里随机加入 “幽灵” 车辆,而这些车辆的其他运动信息从自动驾驶汽车的运动信息通过随机扰动添加。

漏检(假阴性)错误是通过以一定的概率(即漏检率)随机从真值结果中移除物体来实现。

其他类型的感知噪声(速度,位置,朝向,大小等误差)则通过直接向原始真值里添加高斯随机噪声实现。

在上述的不同强度噪声下各个评估指标的结果如下图所示:

横轴为噪声强度,左纵轴为 NDS 和 SDE-APD,右纵轴为 PKL 和 TIP。在一些情况下,一旦噪声达到一定水平, NDS 就会饱和(比如在速度噪声上)。同理,包含大量人工设计的 SDE-APD 也在不同的噪声强度下表现出了大量的非线性(比如速度噪声上)。而 TIP 和 PKL 没有依赖人工设计,表现出的灵敏度在各种噪声强度区间里相对都比较一致。

研究者也单独考察了一个如下图所示的一个具体场景。

在这个场景里,x 轴上有三个物体:1)一个漏检的静态物体(坐标为 x);2)一个静态物体在 x=50m;3)自动驾驶车在 x=0 以大概 14m/s 的速度向 x 轴正前方前进。有两个不同的规划器参与评测:1)AV-1(加速剧烈变动厌恶型)针对驾驶舒适性做了优化(最大刹车加速度为 -4m/s²);2)AV-2(碰撞厌恶型)针对安全性做了优化(最大刹车加速度为 -6m/s²)。

二者最小刹车距离分别为 30m 和 20m。在这个情况里,对 AV-1 规划器,TIP 认为最关键的误检发生在 30m,因为障碍物低于这个距离时即使能成功检测到碰撞也无法避免,因此恰好在最小刹车距离的物体误检是最严重的(刚好能避免的碰撞发生的地方)。其他判据都没有类似的特点和分辨能力,NDS 和 SDE-APD 都表现出各项同性(都认为发生在正后方和正前方同样距离的误检影响都一样),而 PKL 则认为正前方的漏检越近影响越大。

真实数据测试

第二组实验中,本文研究了部署在自动驾驶车辆上的真实感知模块的结果。以一个 3D 物体检测模型为例,该模型可以从激光雷达点云中预测物体的类别、位置、方向、速度和大小。TIP 独立于特定的检测器,可以应用于评估各种感知模型。

如下图所示为该车载模型在若干场景上用 PKL 和 TIP 评估的结果。

左图为这些场景的同场景 PKL 和 TIP 分数分布图,可以看到有大量的点汇集在横轴上,对应那些行为变化不大,但是却可能导致严重后果的感知错误。其中被红圈标记的场景如右侧两幅图所示。右侧第一幅图显示在感知真值输入时,自动驾驶汽车可以通过缓慢制动向前行驶,以保持与前面另一辆车的距离;然而当实际的感知输入包括噪声时(右侧第二幅图),自动驾驶汽车必须紧急制动,以避免与前方近距离的误检车辆(红色箭头所示)发生碰撞。

在这两种情况下,由于自动驾驶车辆速度缓慢并且正在制动(无论是缓慢制动还是紧急制动),行为的差异比较小(PKL=-0.802),但这个误检物体却导致了严重的后果:误检物体导致了紧急制动和虚拟碰撞(在真值感知输入下的行为和误检物体之间),这种差异被 TIP(TIP=-115.42)精确捕获。

真实场景的自动驾驶车辆的运动学数据为(a=-0.36m/s², j=-0.72m/s³),噪声场景下为(a=-0.36m/s², j=-76.4m/s³)。而正常情况下的加加速度(jerk)一般不会超过 1m/s³。从系统的角度来看,这是一个严重的感知错误。由此可见,TIP 能够捕捉到被其他指标所忽略的对自动驾驶车辆规划过程有重要影响的感知噪声。

为了进一步证明所提出的方法在场景层面的合理性,本文还实施了一套类似于(Philion et al, 2020)中的主观评估。为此,研究者收集了 258 对具有上述感知模型实际感知噪声的场景,并检查 TIP、PKL、SDE-APD 和 NDS 在相对严重程度上是否存在分歧(即一个评估方法认为场景 A 的感知误差比场景 B 的感知误差更大,而另一个评估方法认为相反)。

这些场景对由 10 个随机选择的人类驾驶员进行比较和评分,以决定从人类的角度来看一个场景对里哪个场景更糟糕。结果表明,相比其他三个基准评估方法人类驾驶员更倾向于和 TIP 保持一致的结果,如下表所示。

应用到神经规划器

除了具有明确定义效用函数的决策规划过程,研究者提出的方法也可以应用到一些端到端训练的神经规划器上,比如说类似(Bansal et al., 2019; Zeng et al., 2019; Philion et al., 2020)这样的带有车辆行为损失或者分布函数的规划器。作为示范,研究者采用了(Philion et al., 2020)里带有规划行为概率输出的神经规划器,并把输出行为的概率分布函数作为效用函数带入 TIP 中。

研究者使用 CBGS 检测器(Zhu et al., 2019)在 nuScenes 数据集的 3D 检测任务上验证集上获得了如下的结果。

左图是每个测试场景里 PKL-TIP 结果的分布图。可以看到不少数量的点都在竖轴附近。其中一个点对应的场景显示在右侧的四幅图里:检测真值,CBGS 检测器结果,检测结果与真值之差,神经规划器输出(每种颜色代表某个时间点上规划的车辆位置概率,其中每个时间点上概率最大的若干位置被置为 100% 饱和度方便可视化)。

在该场景里,两种输入下(考虑车辆运动学和动力学的约束后)最优的选择都是倾向于停留在原地。因此 PKL 直接计算原始结果里所有位置的分布偏差会认为行为差异很大,而 TIP 只考虑车辆实际会执行的行为,因此认为这个具体情况下感知噪声的影响不大。

TIP 还能用来直接评估每个场景里具体物体漏检和位置上出现误检的影响,如下两图所示。

本图展示了车辆漏检严重程度的可视化结果。每个环境车辆都被单独从真值结果里移除然后计算场景的 TIP 并把结果分数作为不透明度绘制到该车辆上(所有环境车辆都为红色)。可以看出大部分被 TIP 认为发生漏检后果严重的环境车辆都是那些在自动驾驶车辆(AV)行进路径上可能与之发生交互的车辆(而不是简单的距离最近的车辆)。

本图展示了车辆误检严重程度的可视化结果。任给自动驾驶车辆(AV)附近的一个位置,一辆被误检的车被添加到真值结果里然后计算场景的 TIP,并把结果分数作为不透明度绘制到该位置上(用红色标记)。可以看出大部分被 TIP 认为发生误检后果严重的位置都是那些在自动驾驶车辆行进路径上可能与之发生交互的地方。

总结

本文提出了一个系统性框架,从自动驾驶决策规划的视角来评估感知结果里的噪声对自动驾驶影响的严重程度。该方法通过利用基于效用的规划器的特性,有效地识别了在期望效用最大化的背景下可能导致决策规划过程发生重大改变的感知噪声。在人工合成数据和真实数据上进行的大量实验表明,该方法能够有效发现传统的感知评估指标以及只关注自动驾驶最终行为的方法无法区分的感知错误。

依托上述这种前沿、高效的感知评测方法,充分考虑微小感知噪声对规划结果的影响,并采用系统化的方法对感知能力进行评估和优化,轻舟智航提供的自动驾驶通用方案感知能力正在得到飞速提升。

基于高效的数据利用、超融合感知和独创时空联合规划等核心技术,轻舟智航在 2022 年 11 月发布了「轻舟乘风」高阶辅助驾驶解决方案,目前已构建起「高速 + 城区」NOA 的完整产品矩阵,并顺利完成 2000 万级人口城市复杂路况挑战。

今年 3 月,轻舟智航首发基于单征程 5 芯片的城市 NOA 版方案,通过对超融合感知大模型和多任务模型在架构和性能方面的极致优化,轻舟智航实现了更高的算力使用率,以更少的模型数量完成更多任务,最大限度地降低了算力需求,从而用单颗征程 5 芯片也能良好完成复杂场景下的感知和决策规划,突破城市 NOA 性价比的天花板。

而在 4 月的上海国际汽车工业展览会上,轻舟智航还发布了基于环视相机的 6V1R 视觉方案的高速 NOA 方案,并实现落地体验。该方案可实现行泊一体,通过复用传统的泊车传感器,提高硬件使用效率,进一步降低了高速 NOA 的硬件成本。

这证明了轻舟智航行业领先的工程化能力,而这也得益于其背后的经验丰富的技术团队以及体系化的工程治理团队;车规量产级、灵活配置的硬件方案;完善的自动驾驶系统功能安全开发流程,不断有效加速轻舟产品在多车型、多场景中的落地。

行业的发展往往与技术的进步息息相关,当城市 NOA 处在量产落地的「前夜」,类似「感知模块测评」这样的前沿议题将成为决定自动驾驶方案性能和安全性的关键因素,也更加值得进一步的探索。

参考文献

Kant, I. Critik der reinen Vernunft. Johann Friedrich Hartknoch, 1781.

Osborne, M. and Rubinstein, A. A Course in Game Theory. MIT Press, 1994.

Philion, J., Kar, A., and Fidler, S. Learning to evaluate perception models using planner-centric metrics. In CVPR, 2020.

Deng, B., Qi, C. R., Najibi, M., Funkhouser, T., Zhou, Y., and Anguelov, D. Revisiting 3D object detection from an egocentric perspective. In NeurIPS, 2021.

Caesar, H., Bankiti, V., Lang, A., Vora, S., Liong, V. E., Xu, Q., Krishnan, A., Pan, Y., Baldan, G., and Beijbom, O. nuScenes: A multimodal dataset for autonomous driving. In CVPR, 2020.

Zhu, B., Jiang, Z., Zhou, X., Li, Z., and Yu, G. Class-balanced grouping and sampling for point cloud 3d object detection. arXiv preprint arXiv:1908.09492, 2019.

Bansal, M., Krizhevsky, A., and Ogale, A. ChauffeurNet: Learning to drive by imitating the best and synthesizing the worst. In Robotics: Science and Systems (RSS), 2019.

Zeng, W., Luo, W., Suo, S., Sadat, A., Yang, B., Casas, S., and Urtasun, R. End-to-end interpretable neural motion planner. In CVPR, 2019.

推荐内容