《智能驾驶之激光雷达算法详解》8、基于 3D 激光点云的目标检测
[复制链接]
在本文中,将深入探讨3D激光雷达感知系统的核心领域——3D目标检测。随着深度学习在图像目标检测领域的显著成就,以及激光雷达技术的飞速进步,将深度学习应用于3D激光点云以实现高效目标检测已成为研究的焦点。3D激光点云的目标检测旨在从复杂的点云数据中识别出车辆、行人等对象,并精确标注其尺寸、位置及朝向等关键信息。在目标检测的初期探索中,研究者们倾向于直接从原始点云数据中提取特征,结合全局信息来识别目标。PointRCNN算法便是这一思路的杰出代表,它首先利用PointNet++网络提取逐点特征,实现初步的前景与背景分离,随后为每个前景点生成预测框,并通过二阶段网络进一步细化预测结果。而STD模型则另辟蹊径,同样采用PointNet++提取特征,但采用了一阶段检测架构,并创新性地使用球形锚框进行目标预测,结合PointsPool操作优化特征表示,同时引入IoU分支提升定位精度。然而,面对激光点云中庞大的数据量(从数十万到数百万点不等),传统的逐点特征提取与预测方法面临内存占用高、实时性差等挑战。为解决这一问题,3DSSD算法应运而生,它采用一阶段检测架构,并对PointNet++中的最远点采样(FPS)策略进行改进,提出融合特征采样策略与CGlayer网络。这一创新设计不仅显著提升了处理速度(如在KITTI数据集中实现25+ FPS的推理速度),还保证了优异的检测性能。
3D目标检测中的体素/柱状特征划分策略,通过离散化连续问题,显著降低了求解难度与时间复杂度。在后续章节中,算法通过棚格化或体素化技术,有效解决了2D与3D空间中的地面分割与点云聚类难题。特别地,VoxelNet网络由苹果公司于2017年提出,它创新性地实现了三维空间的长、宽、高三个维度的离散化,生成体素栅格,并借助轻量级的PointNet网络提取体素内特征,转化为4D张量。随后,通过3D卷积与reshape操作,将4D张量转换为2D卷积可处理的3D张量,最终结合RPN网络实现高效目标检测。海康威视在此基础上,将VoxelNet的体素划分与特征金字塔架构巧妙融合,推出了Voxel-FPN算法。为进一步提升性能,SECOND网络引入了3D稀疏卷积,而PointPillars则进一步简化,仅在长和宽维度离散化3D空间,利用柱状体素特征及鸟瞰图(BEV)视角下的3D特征张量,通过2D检测方法高效完成3D激光点云的目标检测,其出色的实时性备受学术界关注,并激发了众多改进算法的研究。此外,将高维问题降维处理也是常用的简化策略。借鉴深度图在激光点云聚类等领域的成功应用,研究者们尝试将3D激光点云投影至2.5D深度图进行物体检测。百度深度学习研究院率先探索了这一方向,通过投影与2D全卷积神经网络的结合实现目标检测。Uber则基于深度图、强度图、激光点占据图,采用anchor-free架构,推出了LaserNet网络。然而,研究指出,单纯基于深度图的3D目标检测算法精度往往不及体素和逐点方式,这主要归因于深度图特征提取与3D空间预测框回归间的信息不匹配,以及2D卷积在处理深度图时距离维度信息的缺失。针对此,RangeDet算法提出了更适配深度图的卷积策略,以克服这些挑战。
鉴于多种3D正给能方式各具优劣,探索其融合策略以创新3D目标检测算法,成为研究热点。2016年,清华大学与百度携手,将深度学习与2D卷积网络融合,开创性地提出M算法,该算法巧妙融合多视角特征,包括立方体体素抽取与视图特征,显著提升了3D目标检测的准确性。随后,MVFWa这一特征融合新路径在CVPR 2021会议上大放异彩,成为RSN算法的核心。另一方面,二阶3D目标检测方法借鉴了二阶段网络架构,首阶段粗筛潜在候选,次阶段精细调整。PoimRCNN与BSTD模型已展现不俗实力,而香港中文大学史少师团队更进一步,融合多尺度体素特征与点云精细局部信息,创新PV-RCNN算法,显著增强了检测性能。展望未来,CVPR 2021见证了LiDAR-RCNN算法的诞生,该算法在不颠覆现有框架的基础上,通过二阶段引入的精细化迷你网络,实现了检测精度的飞跃,预示着3D目标检测领域的新一轮技术革新。
前述目标检测方法多聚焦于当前点云信息,忽略了历史数据与检测结果的融合潜力。为此,Wiyme的Charies团队创新性地引入了Offboard 3D OD算法,该算法巧妙利用多点云序列,显著增强了点云的高精度自动标注能力。进一步地,香港中文大学携手Waymo及谷歌,共同研发了C-Anmi模块,旨在通过高效处理多帧激光点云数据,优化3D目标检测算法的性能。这一成果在Cm2021会议上以3D-MAN项目的形式惊艳亮相。基于多点云信息的检测策略,相较于依赖单一帧点云的方法,在检测精度上展现出了显著优势。然而,其计算复杂度也相应提升,对实时性构成了一定挑战,未来研究需致力于在保持高精度检测的同时,优化算法效率,实现更快的响应速度。
在3D目标检测领域,YOLO和CenterNet等算法虽然具有显著影响力,但仍有创新算法如CenterPoint,它们摒弃了传统的基于锚点(anchor)的方法,转而采用中心点热力图来识别目标。CenterPoint通过多任务学习框架,有效地提升了3D目标检测与多目标跟踪的性能,取得了显著成效。同样,地平线感知团队也紧跟潮流,推出了AFDet和AFDetV2两种anchor-free架构的算法,并在2021年Waymo数据集挑战赛的3D目标检测项目中脱颖而出,荣获冠军,彰显了其在该领域的领先地位。
采用注意力机制与Transformer机制革新3D目标检测技术。鉴于注意力机制与Transformer在图像及自然语言处理领域的显著进展,其引入3D激光雷达目标检测领域已成为研究焦点。华中科技大学与中国科学院自动化研究所携手推出TANet算法,该算法巧妙融合注意力机制于通点、逐通道及逐体素特征之中,并通过由粗到细的BBox回归架构,显著增强了小目标如行人的检测精度及对点云噪声的鲁棒性。与此同时,加拿大滑铁卢大学在ICCV 2021上亮相SA-De3D算法,创新性地将self-attention模块融入3D目标检测,旨在更精准地捕获环境背景信息。此外,该算法还创造性地将self-attention与2D可变形卷积结合,形成deformable self-attention模块,并成功嵌入PointPillars、SECOND、PointRCNN及PVRCNN等主流算法中,实现了检测性能的飞跃。
PointNet网络,由斯坦福大学的Charles R. Qi等学者在2017年CVPR盛会上创新推出,其核心在于运用MLP(多层感知机)架构精妙地从3D点云中抽取出局部与全局的深刻特征。这一模型不仅胜任目标分类、零件分割及语义分割等多样任务,其开源代码亦在GitHub平台上广受欢迎。尽管PointNet初衷非直接面向3D点云目标检测,其基于原始点云直接提取特征的策略却深受学界赞誉,频繁被优化并融入后续的众多3D目标检测算法中。
针对PointNet网络在捕捉激光点邻域局部特征方面的不足,推出了PointNet++网络,这一创新之作引入了层模式点集特征学习模块,为3D点云处理带来了革命性突破。该模块巧妙借鉴了2D图像中感受野传递的概念,通过空间划分策略,将点云空间细分为多个重叠的局部区域,精准捕捉每个激光点周边的细微特征。这一过程层层递进,每一层点集特征学习模块都以前一层提取的局部特征为基础,进一步提炼出更高层次的特征信息。如此循环往复,直至汇聚成整个点云的全局特征图谱。相较于PointNet,PointNet++网络在局部与全局特征的提取上展现出更为卓越的性能,其鲁棒性也显著提升。这一成果不仅拓宽了点云处理技术的应用边界,更为后续研究提供了宝贵的参考与启示。PointNet++的开源代码已在GitHub上公开,为广大开发者与研究者提供了便捷的学习与实验平台。
PointRCNN网络,由香港中文大学的史少帅等研究者精心构建,巧妙融合了原始点云特征提取与双阶段检测架构,展现出卓越的性能。其模型架构如图8-6所示,清晰划分为两个核心阶段。在第一阶段,一个精妙的子网络如同一位精准的裁判,将纷繁复杂的3D点云世界划分为前景与背景两大阵营。随后,它采取自底向上的策略,精心挑选并孕育出少量高质量的三维候选框,这些候选框犹如夜空中最亮的星,引领着后续的检测流程。对于每个候选框内的3D点云,通过ROI池化技术,进一步提炼其精华,为后续分析奠定坚实基础。进入第二阶段,另一子网络接过接力棒,将池化后的3D点云精准地转换至预设的坐标系下,这一步骤如同为点云数据换上了统一的“语言”,使得后续处理更加得心应手。在此基础上,该网络深入挖掘局部特征,并与第一阶段捕获的全局语义特征巧妙融合,形成一股强大的合力。这股力量,足以支撑起高精度bounding box的精准估计,以及置信度的可靠预测,为三维目标检测领域树立了新的标杆。
VoxelNet网络,由苹果公司的Zhou Yin与Oncel Tuzel在2017年开创性提出,引领了三维空间目标检测的新纪元。该网络通过对三维空间进行精细的体素划分与独特的特征编码,融合区域生成网络(RPN),实现了前所未有的端到端3D目标检测精度,树立了当时的性能标杆。VoxelNet不仅提升了技术边界,更开启了基于体素/柱状特征进行3D目标检测的研究新方向。这一革命性架构吸引了广泛关注,多个非官方实现版本如雨后春笋般涌现,如Tefw的RPyfoech版本(GitHub上可获取),以及OpenPCDet和MMDetection3D等框架中的官方实现,进一步推动了VoxelNet的普及与应用。从VoxelNet的网络架构图可以清晰看出,其精髓在于特征学习网络、卷积中间层与候选区域生成网络的精妙结合。巧妙地将三维空间细分为多个体素单元,并独创体素特征编码(VFE)层,有效提取各体素内激光点云的共同特征。通过层层堆叠的VFE,构建起描述物体复杂3D形状的深层次特征,这些特征以四维张量形式呈现。随后,利用先进的3D卷积层深入挖掘各体素特征的内在信息,将特征提升至更高维度。最终,通过精心设计的reshape操作,将三维特征张量送入RPN,精准生成目标检测结果,展现了VoxelNet在3D目标检测领域的卓越能力。
实时性飞跃——PointPillars 网络革新:在探索自动驾驶感知技术的征途中,VoxelNet 网络的3D卷积引入虽具开创性,却面临推理速度难以企及实时标准的挑战。2018年,重庆大学的Yan Yan勇于尝试,于VoxelNet架构之上融入3D稀疏理念,推出SECOND模型,然其3D稀疏卷积的部署难题,依旧难以跨越工业应用的门槛。正当此时,NuTonomy公司的Alex H. Lang团队携PointPillars网络横空出世,以非凡创意重塑点云处理格局。PointPillars通过对VFE的精妙改造,引入柱状特征网络(PFN),实现对原始点云的柱状体素精妙划分,并凝练成三维张量特征矩阵,这一创新使得后续处理可直接借力高效的2D卷积网络。尤为值得一提的是,PointPillars网络果断舍弃了VoxelNet的3D卷积与SECOND的3D稀疏卷积,从而在模型训练与推理速度上实现了质的飞跃。在权威KITTI数据集的测试中,其运行频率高达62Hz,不仅完美契合智能驾驶感知模块的实时性严苛要求,更展现出卓越的检测性能,迅速在工业界赢得广泛认可与应用。
RangeDet网络:经过学术界的严格测试,单纯依赖深度图进行激光目标检测的算法,其性能往往逊色于基于体素特征的目标检测算法。中国科学院的Fan Loe等学者与图森未来的王乃岩团队深入剖析了这一现象,揭示了现有基于深度图目标检测算法的两大盲区:一是激光点云的稀疏性导致深度图中物体尺度随距离显著变化,近大远小;二是特征提取局限于二维range image,而输出却需映射至三维笛卡尔坐标系,这一转换过程中特征信息难免有所损失。针对上述痛点,创新性地提出了解决方案,推出了RangeDet网络。该网络模型的设计精妙绝伦,以八通道深度图为输入,每通道分别承载激光点的距离、反射强度、伸长率、x、y、z坐标、方位角及垂向倾角等丰富信息。RangeDet网络的核心由三大板块构成:骨架网络、基于距离的金字塔特征分配层及目标检测头。首先,为解决传统2D卷积在深度图中提取距离信息的局限性,RangeDet网络独辟蹊径,引入了元卷积核。随后,在骨架网络部分,该网络巧妙融合了特征金字塔网络(FPN)的结构精髓,以灵活应对深度图中目标尺度变化的复杂挑战。紧接着,RangeDet网络依据距离条件,将金字塔各层特征精准分配给不同距离范围内的目标,实现了特征的精细化管理与高效利用。最终,这些精心提炼的特征被传递给目标检测头,用于精准预测目标在三维笛卡尔坐标系下的类别、位置及姿态,生成高精度的bounding box。RangeDet网络的问世,不仅为基于深度图的激光目标检测领域带来了全新的视角与解决方案,更为推动自动驾驶、机器人视觉等前沿技术的发展注入了强劲动力。
在前面的章节里,已深入探讨过多种基于体素划分与投影技术的3D目标检测算法。这些算法巧妙地利用点云数据,通过柱状体素划分、特征提取及BEV投影转换,成功实现了对目标的精准检测。然而,尽管它们能保留物体的物理尺寸并有效分离多数物体,但在面对稀疏的点云特征及远近距离物体点密度差异大等挑战时,尤其是在检测小目标或远处目标时,表现略显不足。与此同时,透视图视角或深度图检测方法虽能捕捉精细的特征图,却也在处理遮挡目标时面临困境,且目标尺度随距离变化的问题难以忽视。鉴于此,融合多种视角或投影图的优势,以强化检测算法的性能,已成为当前研究的焦点。
|