三五互联做网站怎么样,学校网站建设渠道,个人学做网站,婚恋网站做翻译华为 https://arxiv.org/pdf/2309.11331.pdf 文章的出发点#xff1a;FPN中的信息传输问题 1. 简介
基于全局信息融合的概念#xff0c;提出了一种新的收集和分发机制#xff08;GD#xff09;#xff0c;用于在YOLO中进行有效的信息交换。通过全局融合多层特征并将全局信… 华为 https://arxiv.org/pdf/2309.11331.pdf 文章的出发点FPN中的信息传输问题 1. 简介
基于全局信息融合的概念提出了一种新的收集和分发机制GD用于在YOLO中进行有效的信息交换。通过全局融合多层特征并将全局信息注入到更高的层次显著增强了NECK的信息融合能力提高了模型在不同对象大小上的性能。具体来说GD机制包括两个分支一个浅层收集和分发分支和一个深层收集和分发分支它们通过卷积基础块和注意力基础块提取和融合特征信息。为了进一步促进信息流动我们引入了一个轻量级的相邻层融合模块它在局部范围内结合了来自相邻层的特征。我们的Gold-YOLO架构超越了现有的YOLO系列有效地展示了我们提出的方法的有效性。
为了进一步提高模型的准确性我们还引入了一种预训练方法我们使用MAE方法在ImageNet 1K上预训练模型的主干网络这显著提高了模型的收敛速度和准确性。例如我们的Gold-YOLO-S经过预训练后实现了46.4%的AP超过了之前的SOTA YOLOv6-3.0-S的45.0%的AP同时速度相似。
2. method
现有Neck的问题 传统上不同层次的特征携带了关于各种大小对象的位置信息。较大的特征包含了较小对象的低维纹理细节和位置。相反较小的特征包含了较大对象的高维信息和位置。特征金字塔网络FPN的原始思想是这些不同的信息可以通过相互协助来提高网络性能。FPN提供了一种有效的架构设计通过跨尺度连接和信息交换来融合多尺度特征从而提高了对各种大小对象的检测精度。
基于FPN路径聚合网络PANet引入了一个自下而上的路径使得不同层次之间的信息融合更为充分。类似地EfficientDet提出了一种新的可重复模块BiFPN以提高不同层次之间信息融合的效率。M2Det引入了一个具有U形和特征融合模块的高效MLFPN架构。Ping-Yang Chen通过双向融合模块改进了深层和浅层之间的交互。与这些层间工作不同[35]使用集中特征金字塔CFP方法探索了单个特征信息。此外[51]扩展了FPN使用渐近特征金字塔网络AFPN进行非相邻层之间的交互。
YOLO系列的颈部结构如图3所示采用了传统的FPN结构该结构包含多个分支用于多尺度特征融合。然而它只能完全融合来自相邻层次的特征对于其他层次的信息只能通过“递归”方式间接获取。在图3中展示了传统FPN的信息融合结构其中现有的level-1、2和3从上到下排列。FPN用于不同层次之间的融合。当level-1从其他两个层次获取信息时有两种不同的情况
1. 如果第一层level-1想要使用来自第二层level-2的信息它可以直接获取并融合这些信息。 2. 如果第一层想要使用来自第三层level-3的信息它需要递归地调用相邻层的信息融合模块。具体来说必须先融合第二层和第三层的信息然后第一层可以通过结合第二层的信息间接获取第三层的信息。
这种方法是为了解决在传统的特征金字塔网络FPN结构中存在的信息传输问题。在FPN中当需要跨层级融合信息时例如将level-1和level-3进行融合传统的FPN结构无法无损地传输信息这阻碍了YOLOs更好地进行信息融合。因此作者提出了一种新的收集和分发机制GD通过全局融合多尺度特征并将全局信息注入到更高的层次显著增强了脖子的信息融合能力提高了模型在不同对象大小上的性能 收集和分发过程对应于三个模块特征对齐模块FAM信息融合模块IFM和信息注入模块Inject。
收集过程涉及两个步骤。首先FAM从各个层次收集并对齐特征。其次IFM融合对齐的特征以生成全局信息。 在从收集过程中获取融合的全局信息后注入模块将此信息分发到每个层次并使用简单的注意力操作注入从而增强分支的检测能力。 为了增强模型检测不同大小对象的能力我们开发了两个分支低阶收集和分发分支Low-GD和高阶收集和分发分支High-GD。这些分支分别提取和融合大尺寸和小尺寸的特征图。
网络结构
2.1 low-stage gather-and-distribute branch
分为对齐融合注入三步
用PSP对齐不同尺度的特征再用convRepConv进行特征融合最后用split分类两个特征用于同B3,B4融合注入采用注意力机制。具体的实现
2.2 High-stage gather-and-distribute branch 特征融合用transformer来做了。
2.3 增强的特征插入模块 不用原始的特征而是用多尺度融合后的特征。
2.4 MIM预训练
采用Spark的预训练方式。在ImageNet 1K上预训练了我们模型的主干网络用于多个Gold-YOLO模型并取得了显著的改进。
3 实验
3.1 Low-GD, High-GD模块作用 1说明了Low-GD低层特征对小目标的作用 2说明High-GD, 高层特征对大目标的作用
3.2 预训练MIM的作用
采用预训练之后能带来1个点左右的提升