《智能驾驶之激光雷达算法详解》7、深度学习基础
[复制链接]
随着神经生理学领域的深入探索,人类对大脑运作的奥秘有了更为透彻的理解。学者们不仅模拟了大脑中神经元的工作机制,还精心构建了神经元的基本数学模型,并以此为基础,搭建起了人工神经网络(ANN)的宏伟架构。近年来,ANN经历了几番起伏后重焕新生,其应用领域已广泛拓展至智能驾驶、安防监控、医疗健康及自然语言处理等前沿领域。本章节旨在精炼地阐述人工神经网络的基本框架与运算流程,对于已具备相关基础的读者,可直接跳转至后续章节深入学习。回溯至1943年,McCulloch与Pits共同开创了先河,提出了标志性的“M-P”神经元模型,其经典结构至今仍被沿用并视为基石。“M-P”神经元的输出特性,展现了其如何通过接收多元输入执行逻辑判断的能力。其中,sign函数作为激活函数的先驱,虽具备直观性,但其不连续性限制了模型处理复杂非线性问题的能力。为此,sigmoid函数、ReLU函数及反正切函数等非线性激活函数应运而生,它们赋予了神经元模型更强大的适应性与灵活性。人工神经网络的发展历程是科技创新与理论突破交相辉映的典范,而“M-P”神经元模型及其后续发展,则是这一壮丽篇章中不可或缺的璀璨篇章。
1958年,F. Rosenblatt基于“M-P”神经元模型,创新性地提出了感知机(Perception)的概念,并进而构建了多层感知机(Multi-Layer Perception, MLP)的框架。感知机的核心架构简洁明了,由输入层与输出层构成,其中输入层负责捕获外界信号,而输出层则运用基本神经元结构进行信息处理。此感知机在本质上与神经元模型同出一辙,但引入“层”的概念极大地促进了复杂网络结构的构建。当我们将多个感知机以层级方式堆叠时,便形成了更为强大的网络模型。该模型由输入层、隐藏层(亦称中间层或变换层)及输出层三部分精心构筑。输入层作为信息的门户,接收并传递原始数据;隐藏层则扮演关键角色,通过权重分配与激活函数的共同作用,深入挖掘并提炼输入信息的核心特征;最终,输出层基于隐藏层提炼的特征,计算出网络的最终响应。这一过程不仅定义了多层感知机模型,也为其赢得了前馈神经网络或正向传播网络的称号。依据隐藏层数量的差异,模型可细分为单隐层前馈神经网络与双隐层前馈神经网络,它们共同构成了人工神经网络的基本蓝图,对后续神经网络技术的演进产生了深远影响。正向传导与误差反向传播机制通过深入探究人工神经网络如何凭借输入信息,经由精心设计的权重网络,最终输出最优解。在此情境中,特别聚焦于第p个输入神经元与隐藏层中第q个神经元之间的权重纽带,这一关键连接驱动了信息的初步加工与传递。遵循自顶向下的逻辑顺序,设定神经元编号递增规则,便于追踪信息流的每一步进展。想象输入层的数据如同涓涓细流,滋养着隐藏层的第四位神经元,而该神经元又通过特定的权重桥梁(设为ω),与输出层的第n个神经元紧密相连。此处的ω不仅代表了数值关系,更是知识传递的使者。为了保持论述的清晰与普遍性,假定隐藏层与输出层均采用sigmoid函数作为激活机制,这一选择基于其良好的非线性映射能力和广泛的应用基础。同时,为了简化推导过程,暂时忽略各层偏置项的影响,使焦点更加集中于权重与神经元交互的核心逻辑上。正向传导过程便显得直观而有序:输入信息经过输入层,按照预设的权重分配方案,在隐藏层内经历非线性变换与整合,最终汇聚至输出层,以期望的形式展现出网络的预测或分类结果。这一过程不仅展示了神经网络处理复杂信息的强大能力,也为其后的误差反向传播与权重调整奠定了坚实基础。
卷积神经网络(CNN),专为计算机视觉而生,深度构建神经网络体系。其核心在于卷积操作,巧妙模拟大脑视觉皮层中神经元的“感受野”机制,实现神经元间的局部互连。同时,结合权重共享策略,显著降低模型参数量。CNN在处理图像数据时,既保持了图像的结构特征,又高效利用了图像的局部不变性。历经四十余载,CNN从萌芽至兴盛,历程波澜壮阔。1980年,福岛邦彦受David H.Hubel与Torsten Wiesel关于大脑视觉皮层研究的启发,首次提出融合卷积与降采样的新知机网络。1989年,LeCun引入误差反向传播机制,为CNN奠定了基本框架与训练路径。直至1998年,LeCun以LeNet网络破解文字识别难题,引领深度学习初露锋芒。然而,彼时受限于硬件技术、样本稀缺及SVM等机器学习算法的冲击,CNN并未赢得广泛关注。直至2012年,GPU并行计算技术的飞跃,Alex与Hinton等人在CUDA GPU平台上成功打造AlexNet,于ImageNet竞赛中以领先亚军约12%的卓越成绩问鼎,至此,CNN正式步入辉煌时代。
卷积操作的引入及其特性
在神经生物学中,“感受野”描绘了大脑神经元仅响应其特定支配区域的信号,而非全面反馈所有信息的特性。传统“BP”神经网络处理图像,神经元与每个像素通过权重连接的复杂过程,揭示其处理机制与大脑视觉感知的显著差异。那么,如何模仿这种高效的“感受野”机制,并同时优化模型的参数效率呢?在图像处理领域,滤波操作作为一种经典手段,以单通道图像FER为例,通过将远小于图像尺寸的滤波器(或称卷积核)WeR""与图像对应位置的像素值相乘后求和,生成新图像的像素值y,实现了图像的滤波处理。这一过程在数学上被定义为二维离散卷积,滤波器因此也被称为卷积核。学者们创新地将这一卷积过程引入神经网络,使卷积核成为可学习的权重参数。在此架构下,隐藏层神经元仅与卷积核覆盖的输入数据相连,不仅模拟了大脑视觉的“感受野”机制,还显著减少了模型参数,这正是卷积神经网络(CNN)名称的由来。以1024×1080的图像和2×2的卷积核为例,全连接网络中首个隐藏层的每个神经元需1,105,920个权重,而CNN中每个神经元仅需4个权重,极大降低了计算复杂度和存储需求。CNN的另一大创新在于权值共享。卷积核在图像上滑动计算时,其权重保持不变,这一特性进一步简化了网络训练过程,提高了模型的学习效率。蓝色矩阵代表图像,绿色矩阵为卷积核,黄色矩阵则为卷积操作后的特征图,直观展示了权值共享的效果。
卷积神经网络(CNN)以其独特的架构优势,避免了将图像简单拉伸成一维向量的繁琐步骤,从而能够有效捕捉图像中像素间的空间结构关系。借鉴经典LeNet网络的设计精髓,CNN的基本框架巧妙融合了输入层以接纳原始数据,卷积层以提取特征,池化层以减少参数与计算量,全连接层以整合全局信息,并最终通过输出层输出结果。这一结构确保了CNN在处理图像任务时的高效与精准。
在深入探讨图像卷积神经网络的学习之前,阐述计算机视觉领域的三大核心研究方向:图像分类、图像目标检测及图像分割,它们各自独具特色,紧密相连又彼此区分。图像分类,作为基石,其核心在于精准判定图像所属类别,无论是飞驰的车辆、欢笑的孩童,还是静谧的自行车,皆在其识别范畴之内。进而,图像目标检测则更上一层楼,不仅辨识目标类别,更精确捕捉其在图像中的位置坐标,常辅以边界框(Bounding Box, BBox)这一工具,细腻描绘目标尺度,实现定位与识别的双重飞跃。至于图像分割,则是以更深层次的理解为目标,依据图像的语义内容及属性特征,巧妙地将图像细分为多个富含意义的区域,每一区域均承载着独特的视觉信息与故事。经典的Transformer架构精髓是该架构精妙地融合了多头注意力机制与前向全连接网络,并巧妙地运用残差连接与层规范化(LayerNorm, LN)技术,显著增强了网络的稳健性。
|