找回密码
 立即注册

从浪潮登顶NuScenes榜首解读自动驾驶AI感知技术的发展

新能源车 2022-12-9 22:23 Au: 车闻天下

北京2022年12月8日 /美通社/ -- 自动驾驶是集感知、决策、交互于一体的技术情况感知能力作为自动驾驶的第一个环节,是车辆与情况交互的纽带通过"摄像头、毫米波雷达、超声波雷达、激光雷达"等各类传感器设备,感知情况的手段日趋多元化同时,在平台层面感知决策处置能力的提升,平台算力和感知算法的效率提升和创新,也成为了车企发展智能驾驶能力的关键。

NuScenes挑战赛,作为检验感知算法在自动驾驶范畴相关任务性能的试金石,自数据集公开以来,吸引了来自全球各地的研究团队的成果提交。

在最新一期所公布的比赛测评榜单中,全球领先级AI算力根本设施提供商----浪潮信息凭仗Inspur-DABNeT4D登顶自动驾驶数据集NuScenes 纯视觉3D方针检测任务榜单,并将关键性指标NuScenes Detection Score(NDS)进步至62.4% 。

除传统的自动驾驶创业公司和造车企业之外,人工智能平台厂商、算力厂商也起头逐步关注和投入自动驾驶的技术研发。那末,未来自动驾驶感知技术究迈向如何的路径发展,逐步实现大范围的量产落地?

本文试图从浪潮信息在NuScenes榜单上的感知模子解读动身,来一窥自动驾驶的感知技术发展。

从自动驾驶的分级来看,当前的自动驾驶技术,隐隐可以看出2个门户,一个是以直接实现L4级自动驾驶为方针的激进派,一个是从L2级辅助驾驶起头,逐步提升自动驾驶品级的渐进派。但无论是L2级的辅助驾驶还是L4级的自动驾驶,从整体架构上看,都可以大致分为感知、决策和控制3部分。感知是自动驾驶汽车的眼睛,和人类的眼睛为大脑提供了70%以上的信息类似,感知系统也为自动驾驶车辆提供了车辆外部情况信息输入。自动驾驶的感知依靠于各类车载传感器的信息输入,包括摄像头、超声波雷达、毫米波雷达和激光雷达等。其中最焦点的就是摄像头和激光雷达。

图 1(上):自动驾驶架构组成 。图 2(下):3D方针检测示意图, 3D方针被定义为一个长方体,(x,y,z)是长方体的中心坐标,(l,w,h)是长宽高信息,θ是航向角,比如长方体在地平面的偏航角,class是3D方针的种别。vx、vy描写3D方针在地面上沿x轴和y轴偏向的速度。
图 1(上):自动驾驶架构组成 。图 2(下):3D方针检测示意图, 3D方针被定义为一个长方体,(x,y,z)是长方体的中心坐标,(l,w,h)是长宽高信息,θ是航向角,比如长方体在地平面的偏航角,class是3D方针的种别。vx、vy描写3D方针在地面上沿x轴和y轴偏向的速度。

自动驾驶面临的是一个3维的情况空间,甚至于我们可以说,由于自动驾驶车辆要在情况空间中移动,且情况空间中其他的行人、车辆等也会移动,则可以看做自动驾驶面临的是一个3维空间+1维时间的4维时空体系。自动驾驶车辆需要在三维空间中判定四周的人、车、物的间隔远近,在此根本上还要判定他们是静态或者动态的,以及移动的偏向和速度等信息,我们一般称之为3D方针检测任务。3D方针检测任务可以看做是自动驾驶中最焦点的感知任务。固然,除此之外,其他的感知任务还包括识别红绿灯、交通标识、车道线、斑马线等道路信息。

持久以来,激光雷达一直被以为是自动驾驶车辆不成或缺的零部件之一,由于激光雷达能提供对车辆四周情况最切确的三维感知。激光雷达收集的点云信息自然就存储了三维空间信息,因此基于激光点云信息的3D方针检测来说,算法设计就简单了很多,也诞生了一系列的经典模子,比如PointPillar、SECOND、SASSD等等。可是激光雷达的本钱问题也成为了自动驾驶落地最大的瓶颈。早期的激光雷达价格,比如激光雷达鼻祖Velodyne推出的高精度激光雷达的价格到达了8万美元。雷达比车贵的现实问题成为了激光雷达上车和量产的最大阻碍。虽然今年随着技术的进步,激光雷达的价格下降明显,可是能满足L4级自动驾驶需求的激光雷达的价格依然偏高。

摄像头是自动驾驶车辆的别的一个很是重要的传感器,由于激光雷达收集的点云信息没有色彩和纹理,因此无法识别对于人类来说可以轻松分辨的红绿灯、交通标识、车道线、斑马线等道路信息。因此还是需要摄像头作为补充。而这又会带来额外的多个模态的信息融合困难。简单来说,激光雷达主要擅长三维空间中的车辆、行人等的三维时空信息感知,而摄像头主要擅长除此之外的红绿灯、车道线等视觉纹理特征比力丰富的信息感知。别的,在量产本钱和价格上,摄像头也有无可相比的上风。比如Tesla搭载的单颗单目摄像头的本钱仅为25美元,整车8个摄像头的价格也才200美元。相比于整车价格来说,几近可以疏忽不计。假如仅使用摄像头,在强大AI算法的加持下,就能实现切确的3D方针检测任务,那意味着不使用激光雷达的自动驾驶也不无可能。

在计较机视觉范畴,近年诞生了大量的分类、检测、朋分模子,比如ResNet、YOLO、Mask RCNN等,这些AI模子已经普遍的应用于安防、交通、以及自动驾驶范畴。但有一个焦点的问题是,这些模子都是针对2D图像设计的,无法直接适用于3D方针检测任务。基于图像进行3D方针检测的焦点问题就是如何切确的估量图像中物体的深度。由于摄像头拍摄的照片和视频是把3D空间投射到了2D平面中,丢失了深度信息,如何对这些深度信息进行还原就是一个机械学习范畴所谓的"病态问题"。即,问题的解可能不是唯一的。因此持久以来,基于图像的3D方针检测算法性能一直远低于基于激光雷达的3D方针检测性能。

自从Tesla使用纯摄像头方案的辅助驾驶系统取得一定的成功之后,基于纯视觉的自动驾驶感知方案受到了业界越来越多的关注。同时随着数据、算法、算力等多个方面的进步,纯视觉的自动驾驶感知方案在3D方针检测任务上的性能在最近一年和激光雷达的差距有了明显的改观。

在数据方面,出现了搭载传感器更多,收集时间更长的自动驾驶道路数据集。比如2019年由Motional(由现代汽车团体和Aptiv资成立的一家无人驾驶公司)的团队开辟和开源的NuScenes数据集收集于波士顿和新加坡两个城市的实际道路。收集了大约15小时的驾驶数据,精心选择驾驶线路以捕捉具有挑战性的场景数据。数据场景覆盖了城市、住宅区、郊区、产业区各个场景,也涵盖了利剑天、黑夜、晴天、雨天、多云等分歧时段分歧天气状况。收集车上配备了完善的传感器,包括了6个相机、1个激光雷达、5个毫米波雷达、以及GPS和IMU,具有360°的视野感知能力。NuScenes数据集是第一个提供自动汽车全套传感器数据的大型数据集。

除了NuScenes之外,业界还有Waymo、ONCE等开源数据集。但今朝NuScenes是被使用最多的数据集。自公开以来,NuScenes数据集已经被论文引用超2000次。NuScenes挑战赛也成为了检验感知算法在自动驾驶相关任务性能的试金石。吸引了来自全球各地的研究团队的220余次成果提交,不但有百度、华为、商汤、旷视等著名企业,还涵盖了卡内基梅隆大学、加利福尼亚大学伯克利分校、MIT、清华大学、香港科技大学、上海交通大学、中国科学技术大学等国内外重点高校。近期,鉴智机械人、纵目科技、亿咖通等车企研发团队也出现在了NuScenes的榜单上。

NuScenes数据集提供了包括 3D 方针检测、3D 方针跟踪、猜测轨迹 、激光雷达朋分、全景朋分和跟踪在内的多个评测任务。其中3D方针检测任务的方针是检测NuScenes数据集上的10种分歧种此外检测对象,包括标出3D方针框,而且估量相应种此外属性信息和当前的速度信息等。这10种检测对象具体包括汽车、卡车、公交车、行人、摩托车、自行车、锥桶、路障等,检测的信息包括物体的三维位置、巨细、偏向、速度等。NuScenes 提出了一个综合指标NDS,即NuScenes 检测分数(NuScenes Detection Score, NDS),这个指标由均匀精度(mAP)、均匀平移误差(ATE)、均匀标准误差(ASE)、均匀偏向误差(AOE)、均匀速度误差(AVE)和均匀属性误差(AAE)综合计较获得。

图 3:NuScenes数据集中车身6个摄像头收集画面示意图。
图 3:NuScenes数据集中车身6个摄像头收集画面示意图。

NuScenes提供了一个终年更新的榜单,在纯视觉 3D方针检测任务榜单[1]上,今朝一共有50次提交,其中大大都的提交发生在2022年。今朝排名第一的是浪潮信息的AI团队在22年10月提交的DABNet4D算法,实现了综合检测精度NDS 0.624的检测效果。而在2022年头排名第一的BEV3D算法的NDS精度是0.474。也就是说在不到一年的时间内,NuScenes 纯视觉3D方针检测的NDS指标提升了15个点。相比之下,基于激光雷达的3D方针检测精度,仅从年头的0.685提升到0.728,提升约4个点。而基于纯视觉算法和激光雷达算法的精度差距也从年头的45%缩小到17%。这主要得益于纯视觉3D检测算法优化带来的性能提升。

图 4(上):NuScenes评测榜单截图。
图 5(下):把分轻视角的图像转换到同一的俯瞰图(BEV)视角空间。
图 4(上):NuScenes评测榜单截图。 图 5(下):把分轻视角的图像转换到同一的俯瞰图(BEV)视角空间。

浪潮此次所提交的算法DABNet4D是Depth-awared BEVNet 4D的缩写,即深度感知的四维俯瞰图(bird's eye view, BEV)神经网络。其焦点思想就是构建了俯瞰图(BEV)神经网络,并使用了时空融合的4D感知和深度猜测优化。由于单个摄像头的视角有限,仅使用单个摄像头很难实现对车身四周360度的感知。前期自动驾驶算法模子一般是基于车身分歧位置的摄像头别离进行情况感知,然落后行融合。可是这一方案存在一些潜伏的问题,比如对于像大卡车这类比力大的车辆挨着自动驾驶车辆时,会在自动驾驶车辆的多个摄像头中出现卡车的分歧部位,会致使算法出现错误检测和漏检的情况。最近融合模子架构,通过先对分歧摄像头或其他传感器的信息进行融合,然后在一个同一的融合的空间进行3D方针感知和检测,能够有效的解决这些问题,是今朝感知技术发展的一大趋势。

所谓俯瞰图,就是从天空俯视自动驾驶车辆及其四周情况,也就是所谓的上帝视角。自动驾驶车辆的摄像头都是水平视角,假如把分歧水平视角的图像融合成一个同一的以自动驾驶车辆为中心的俯视视角的特征图,那末便可以提供最清楚和完整的自动驾驶车辆四周情况空间的视觉表征,从而也就方便从这同一的视觉表征中进行3D方针检测以及其他的检测、分类、朋分等视觉感知任务。可是,如何基于AI算法构建这同一俯瞰图视觉表征是一个很大的挑战。

图 6(左):多相机融合算法架构图。先使用特征提取神经网络对分轻视角的图像进行特征提取,并融合到同一的BEV空间,并基于同一BEV空间进行障碍物检测、车道线检测和道路检测等检测任务。
图 7(右):浪潮团队研发的基于Transformer架构的多视角特征融合模子CBTR的架构图。
图 6(左):多相机融合算法架构图。先使用特征提取神经网络对分轻视角的图像进行特征提取,并融合到同一的BEV空间,并基于同一BEV空间进行障碍物检测、车道线检测和道路检测等检测任务。 图 7(右):浪潮团队研发的基于Transformer架构的多视角特征融合模子CBTR的架构图。

在2022年头,浪潮团队构建了一个基于Transformer架构的多视角特征融合模子CBTR。CBTR以经过卷积神经网络提取的图像特征作为输入,并经过标准Transformer架构的特征融合和特征变换,实现了高效稳定的BEV特征输出。以CBTR构建的BEV特征为根本,团队在NuScenes数据集上实现了在精度和速度上都最优的车道线检测算法。相关功效颁发在CVPR 2022 WAD上。在DABNet4D中,团队进一步优化了BEV特征的提取网络,以实现更好的特征提取效果。

斟酌到车辆所处的情况是一个动态变化的三维空间,引入历史空间数据对于方针的速度和偏向的猜测将会有比力大的帮助。为了进一步引入车辆所处的动态情况中的历史信息,浪潮团队基于NuScenes中的多帧数据,别离进行BEV特征提取,并使用专门的特征融合模块对时序的特征进行融合,构建了MASTER(Multi-camerA Spatial and Temporal feature ExtractoR,多相机时空特征提取器)算法。2022年7月,团队在NuScenes榜单提交了MASTERv2版本的3D方针检测成果,实现了NDS 0.576的检测精度。位列当前同类型算法第一。

在此根本上,如何进一步进步纯视觉3D方针检测的精度,其焦点还是进一步优化模子的深度估量性能。在MASTER算法的根本上,团队进一步引入了深度估量网络,来强化模子的深度感知性能。终极的完整网络架构如下图所示。

图 8:浪潮团队研发的DABNet4D模子架构图。
图 8:浪潮团队研发的DABNet4D模子架构图。

除此之外,多种数据增强算法的应用,也对DABNet4D的性能提升有比力大的帮助,这主要是由于虽然NuScenes数据集在今朝开源的自动驾驶测评数据集中,已经算是比力大的范围,可是其相对于真实的自动驾驶场景来说,数据集的范围还是比力有限,比如有的方针检测种别,在整个数据集中,只出现了很少的次数。这种分歧种别方针在数据集中的不平衡性,对于模子整体检测效果的提升,有较大的晦气影响。因此DABNet4D使用了图像数据增强、BEV特征增强和样本贴图增强等多标准的数据增强技术,来提升模子的检测效果。

在此根本上,使用性能更优的特征提取网络对于整体的性能提升也有一定的帮助。团队测试了EfficientNet系列、Swin Transformer系列、ConvNeXt系列等多个典型的视觉特征提取网络,并终极选用了ConvNeXt网络架构以期获得最佳的特征提取性能。

在调集了上述算法和工程化方式上的创新之后,DABNet4D终极实现了NuScenes评测榜单上当前业界最佳的纯视觉3D方针检测精度。

需要提到的是,完善的算力根本设施也在这一工作进程中起到了举足轻重的作用。和练习2D方针检测模子比如YOLO系列相比,DABNet4D的练习需要更多的算力以及更好的算力平台支撑。

本次构建的DABNet4D-tiny和DABNet4D-base两个模子,其参数量别离是59.1M和166.6M。虽然参数量不是特别大,可是由于使用的输入数据分辨率到达了1600x900,远大于ImageNet、COCO等数据集练习2D方针检测网络的图片尺微暇,这意味着模子练习进程中的特征图输出也会大很多,从而需要更多的显存空间来存储。与此同时,多相机视角的引入以及时序数据的引入,意味着模子练习需要更大的批尺微暇。举例来说,NuScenes数据集有6个相机,假如仅使用持续3帧的时序数据,也意味着模子的输入批尺微暇是18。这进一步增大了对练习设备的显存需求。实际上,浪潮团队练习模子使用的是搭载了NVIDIA Ampere 架构40GB和80GB显存的多台5488A5 GPU服务器平台。其中GPU之间使用了NV-Switch全互联架构,来满足模子练习的高显存需求,以及模子并行练习的高通讯带宽需求。除此之外,服务器上摆设的AISTATION资源治理系统,对于整个任务中的资源治理和散布式练习优化,对于整个模子练习的效率提升,也起到了很大的帮助。

别的,数据的丰富水平对于纯视觉3D方针检测模子的感知性能提升作用明显。这也是为什么在DABNet4D的优化进程中,团队使用了较多的数据增强算法。由于相对于真实的自动驾驶场景和数据集来说,NuScenes数据集的范围还是太小了。比如公开资料表白,Tesla 练习其FSD自动驾驶系统使用了 100万的 8-camera 36fps 10-second videos作为练习数据,其范围远大于NuScenes数据集。DABNet4D使用了大约2000 GPU hours。做同比换算的话,Tesla的FSD的练习需求大约是316 台5488A5服务器练习约1周的时间。其计较需求之大,可见一斑。

在自动驾驶落地的产业化进程中,感知技术作为自动驾驶的焦点技术模块,既是起点也是基石。而未来,面向自动驾驶感知算法的研发,也将会投入更增强大的人工智能计较平台予以支撑。作为全球领先的算力提供商,浪潮信息始终践行多角度切入,发挥融合算力、算法等全栈解决方案能力上风,推动自动驾驶范畴的技术创新型发展。从NuScenes榜单技术的快速迭代来看,我们有来由相信,随着算力、算法的延续型突破,自动驾驶产业化落地进程也将多一层"腾飞动力之源"。


【声明】车城网发表的该观点仅代表作者本人,与本网站立场无关,如有侵犯您的权益,请联系立删。