wordpress安装到网站,传媒公司怎么注册,商城建网站,长沙网站主机信息记录材料 2022年10月 第23卷第10期 【摘要】目标检测是深度学习的一个重要应用#xff0c;目前在智能驾驶、工业检测相关领域都获得应用#xff0c;具有重要的现实意义。本文对基于深度学习目标检测算法原理和应用情况进行简述#xff0c;首先介绍结合区域提取和卷积神经… 信息记录材料 2022年10月 第23卷第10期 【摘要】目标检测是深度学习的一个重要应用目前在智能驾驶、工业检测相关领域都获得应用具有重要的现实意义。本文对基于深度学习目标检测算法原理和应用情况进行简述首先介绍结合区域提取和卷积神经网络以区域 R-CNN 为代表的分类目标检测框架的研究现状和相关模型然后介绍与此相关的目标检测框架YOLO 和 SSD最后对这种目标检测领域的两种主流算法进行比较和总结展望分析其未来的研究方向。
目标检测主要是根据目标的相关特征对图像进行分割从而实现目标识别目的。基于深度学习的目标检测算法在步骤上包括双阶段two-stage和单阶one-stage两种目标检测框架。
前一种框架在处理过程中先确定出样本的候选框接着对样本通过 CNN网络分类后一种框架在处理时不产生候选框直接在一定回归分析基础上实现目标检测。
对比分析可知这两种方法的特性明显不同前者所得结果更准确不过实时性差后者速度上占优。各经典算法及主流特征提取网络出现的时间 如图 1 所示。
基于区域提取目标检测框架
区域提取算法的核心框架是卷积神经网络 CNN对这种网络的研究可追溯至神经认知机神经认知机的主要特征表现为具有深度结构属于一种研究相对深入的深度学习算法。根据相关资料可知这种网络中隐含层是 S 层和C 层组合形成的在运行过程中二者分别用于提取和接收图像特征的功能。20 世纪 80 年代 LECUN等对这种模型进行改进和优化建立起功能更强大的 LeNet-5 网络然后通过其识别手写数字结果发现其可以很好地满足应用要求。LeNet-5 的主要特征为引入了池化层来筛选输入特征这样可以显著提高网络的性能。LeNet-5 对 CNN 网络发展起到很大促进作用并决定了其基本结构通过这种网络进行图像处理时可获得其平移不变特征。卷积神经网络主要由两部分组成一部分是特征提取卷积、激活函数、池化另一部分是分类识别全连接层。
1.1 R-CNN
采用滑动窗口策略对图片进行反复特征提取虽然能够尽量提取图片信息但是穷举法导致识别结果多了很多其他信息效率太低。GIRSHICK 等提出区域卷积神经网络 R-CNNRegion CNN如图 3 所示。R-CNN 算法和改进前网络相比取得了 50% 的性能提升但其也有缺陷存在基于传统方法确定出候选区这样降低了其处理实时性卷积神经网络需要分别对各候选区来特征提取处理实际存在大量的重复运算也显著降低算法效率。 1.2 Fast R-CNN
GIRSHICK等在研究过程中提出一种优化的 Fast R-CNN 模型如图 4 所示。Fast R-CNN 和 R-CNN 相比训练时间从 84 h减少到 9.5 h测试时间从 47 s减少到 0.32 s并且在 PASCAL平台上测试的准确率提高到 66% 67%之间。且在学习训练过程中综合了分类损失和回归损失这样可显著改善学习效果。然后根据要求输出相关分类和定位信息对中间层信息不需要特定性的保存有利于节约存储资源。梯度可利用池化层来高效的传播。Fast R-CNN 使人意识到了候选区域 卷积神经网络在提高检测实时性方面的优势对比分析可知多类检测可在改善处理实时性基础上也提高了处理准确性不过其依然存在局限性如处理过程中基于传统方法生成候选区。 1.3 Faster R-CNN
为了解决上述算法的问题2015 年微软研究院的REN等以及 Ross 团队推出快速 R-CNN如图 5 所示在处理过程中简单网络目标识别速度为 17 fps在 PASCAL VOC上准确率为 59.9%复杂网络的为 5 f p s准确率也达到78.8%。在这种模型中加入边缘提取网络这样使得生成候选区域特征提取分类以及定位相关的环节被纳入到整体框架中有利于提高模型的标准性水平。在对此网络进行改进时应用区域生成网络RPN取代其中的搜索方法。设计辅助生成样本的 RPN 网络算法在目标检测时的流程为先由 RPN 对候选框进行判断确定出其是否为目标接着判断目标的类型。在各环节都可以共享提取的特征信息因而有利于提高处理效率同时占据的空间减小可以更快地生成候选框而算法的精度并不受到影响。不过进一步分析可知 RPN 网在处理时可获得多尺寸的候选框这样在处理时感受野和目标尺寸会产生不匹配问题在目标平移变化情况下无法实现检测目的。 1.4 Mask R-CNN
为了处理 two stage 算法应用中存在的问题HE 等 对上述问题进行分析建立了Mask R-CNN 模型取得了很好地识别效果。处理时面临的任务为 3 个包括分类 回归 分割如图 6 所示。基于全卷积网络预测候选框的掩膜可使得目标空间结构相关的信息都很好的保留实现目标像素级分割定位。
基于回归的目标检测框架
为了进一步提高目标检测的实时性出现了 YOLOyou only look once和 SSDsingle shot multibox detector等基于回归的目标检测框架这样不仅可以确保算法的可靠性还能最大程度上提高其运算速度。
2.1 YOLO
2015 年美国计算机研究者 REDMON 等 建立 YOLO 算法通过这种算法进行处理时对应的流程情况如图 其在预测过程中主要运用到图形全局信息因而相应的处理过程显著简化。将输入图像尺寸进行还原设置了7×7 网格单元。通过 CNN提取的特征进行学习训练输出结果为目标的类别信息。然而该方法也存在一定的局限性具体体现在定位不准、召回率不甚理想尤其是在近距离的物体检测中不十分适用从总体来看此方法的泛化能力相对弱。 2.2 YOLOv2 和 YOLO9000
基于 YOLO 有 2 个改进版YOLOv2 和 YOLO9000它们有效弥补了以往方法的不足可以减小召回率和定位误差。前者如图 8 所示主要是运用了 Faster R-CNN 的思想在具体应用过程中采用锚框机制同时还使用了典型的K-Means 聚类方式获得更为理想的锚框模板。这种算法的特殊性还体现在通过增加候选框的预测引入更为科学的定位方法从而有效弥补了以往算法召回率低的问题现阶段这种方法已经在实践中得到大量应用。YOLO9000 是基于 Y OLO v2 形成的一种算法该算法的最大优势体现在能够检测超过 9 000 个类别的模型其主要贡献点在于提出了一种分类和检测的联合训练策略。 2.3 YOLOv4
YOLOv4如图 9 所示算法是也是基于 YOLO 形成的一种新方法相对来说前者更具先进性。其采用了近些年卷积神经网络领域中最优秀的优化策略因此在很多场合中都非常适用比如在数据处理、主干网络等场合中均有不同程度的优化。在 YOLOv4 中借鉴了跨阶段局部网络 CSPNetcross stage partial networks对Darknet53 做了一点改进。CSPNet 解决了其他大型神经网络框架梯度信息重复这一瓶颈其采用特殊的方式将梯度完全集成到特征图中故而采用这种方法能够有效减少模型的参数量和 FLOPS 数值。因此与其他的算法相比其有更高可靠性推理速度也非常理想同时显著减小了模型尺寸。 2.4 SSD
LIU等 建立此算法如图所示。S S D 的主要特征表现为融合了以上两种算法的回归和锚盒机制在各卷积层的特征图上进行定位预测输出的为统一的 boxes 坐标对对应的类别置信度主要是通过小卷积核进行预测分析。进行整体多尺度的边框回归分析这样可以提高算法的处理速度而定位准确性不受到明显影响。然而其利用多层次特征分类因此在应用中也存在一定不足比如对于小目标检测困难。 深度学习目标检测有多方面性能优势和很广阔的应用场景同时也面临着很多困难与挑战。本文以具有代表性的目标检测算法为主线综述了这种检测技术的进展和思考。参考上下文特征的多特征融合在此基础上结合R N N 展开更为深入的探讨。当前这种目标检测算法虽然应用非常广泛然而同样存在诸多局限性如何减少复杂背景干扰以提高检测的准确性基于深度学习目标检测技术的研究值得更深层次的研究。