当前位置：首页 > news >正文

安阳网站建设设计个人微信小店怎么开通

news 2025/12/8 22:21:23

安阳网站建设设计,个人微信小店怎么开通,电子商务网站建设与综合实践,一家专门做开网店的网站MPDIoU: A Loss for Efficient and Accurate Bounding BoxRegression MPDIoU:一个有效和准确的边界框损失回归函数摘要边界框回归(Bounding box regression, BBR)广泛应用于目标检测和实例分割#xff0c;是目标定位的重要步骤。然而#xff0c;当预测框与边界框具有相同的… MPDIoU: A Loss for Efficient and Accurate Bounding BoxRegression MPDIoU:一个有效和准确的边界框损失回归函数摘要边界框回归(Bounding box regression, BBR)广泛应用于目标检测和实例分割是目标定位的重要步骤。然而当预测框与边界框具有相同的纵横比但宽度和高度值完全不同时大多数现有的边界框回归损失函数都无法优化。为了解决上述问题我们充分挖掘水平矩形的几何特征提出了一种新的基于最小点距离的边界框相似性比较指标MPDIoU该指标包含了现有损失函数中考虑的所有相关因素即重叠或不重叠区域、中心点距离、宽度和高度偏差同时简化了计算过程。在此基础上我们提出了基于MPDIoU的边界框回归损失函数称为LMPDIoU。实验结果表明MPDIoU损失函数应用于最先进的实例分割(如YOLACT)和基于PASCAL VOC、MS COCO和IIIT5k训练的目标检测(如YOLOv7)模型其性能优于现有的损失函数。关键词:目标检测实例分割边界框回归损失函数 1.介绍目标检测和实例分割是计算机视觉中的两个重要问题近年来引起了研究者的广泛关注。大多数最先进的目标检测器(如YOLO系列[1,2,3,4,5,6]Mask R-CNN [7]Dynamic R-CNN[8]和DETR[9])依赖于边界框回归(BBR)模块来确定目标的位置。在此基础上设计良好的损失函数对BBR的成功至关重要。目前大多数BBR的损失函数可分为两类:基于n范数的损失函数和基于IoU的损失函数。然而现有的边界框回归的损失函数在不同的预测结果下具有相同的值这降低了边界框回归的收敛速度和精度。因此考虑到现有边界框回归损失函数的优缺点受水平矩形几何特征的启发我们尝试设计一种新的基于最小点距离的边界框回归损失函数LMPDIoU并将MPDIoU作为边界框回归过程中比较预测边界框与真值边界框相似度的新标准。我们还提供了一个易于实现的解决方案来计算两个轴线对齐的矩形之间的MPDIoU允许它被用作最先进的对象检测和实例分割算法的评估指标我们在一些主流的对象检测、场景文本识别和实例分割数据集(如PASCAL VOC[10]、MS COCO[11]、IIIT5k[12]和MTHv2[13])上进行了测试以验证我们提出的MPDIoU的性能。本文的贡献可以概括为以下几点: 1.我们考虑了现有基于IoU的损失和n范数损失的优缺点提出了一种基于最小点距离的IoU损失称为LMPDIoU以解决现有损失的问题并获得更快的收敛速度和更准确的回归结果。 2.在目标检测、字符级场景文本识别和实例分割任务上进行了大量的实验。出色的实验结果验证了所提出的MPDIoU损失函数的优越性。详细的消融研究显示了不同设置的损失函数和参数值的影响。 2.相关工作 2.1.目标检测和实例分割在过去的几年里来自不同国家和地区的研究人员提出了大量基于深度学习的目标检测和实例分割方法。综上所述在许多具有代表性的目标检测和实例分割框架中边界框回归已经被作为一个基本组成部分[14]。在目标检测的深度模型中R-CNN系列[15]、[16]、[17]采用两个或三个边界框回归模块来获得更高的定位精度而YOLO系列[2、3、6]和SSD系列[18、19、20]采用一个边界框回归模块来实现更快的推理。RepPoints[21]预测几个点来定义一个矩形框。FCOS[22]通过预测采样点到边界框的上、下、左、右的欧氏距离来定位目标。对于实例分割PolarMask[23]在n个方向上预测从采样点到物体边缘的n条射线的长度来分割一个实例。还有一些检测器如RRPN[24]和R2CNN[25]通过旋转角度回归来检测任意方向的物体用于遥感检测和场景文本检测。Mask R-CNN[7]在Faster R-CNN[15]上增加了一个额外的实例掩码分支而最近最先进的YOLACT[26]在RetinaNet[27]上做了同样的事情。综上所述边界框回归是用于目标检测和实例分割的最先进深度模型的关键组成部分。 2.2.场景文本识别为了解决任意形状的场景文本检测和识别问题ABCNet[28]及其改进版本ABCNet v2[29]使用BezierAlign将任意形状的文本转换为规则文本。这些方法通过纠错模块将检测和识别统一为端到端的可训练系统取得了很大的进步。[30]提出了RoI Masking来提取任意形状文本识别的特征。与[30,31]类似尝试使用更快的检测器进行场景文本检测。AE TextSpotter[32]利用识别结果通过语言模型指导检测。受[33]的启发[34]提出了一种基于transformer的场景文本识别方法该方法提供了实例级文本分割结果。 2.3.边界框回归的损失函数一开始在边界框回归中广泛使用的是n范数损失函数它非常简单但对各种尺度都很敏感。在YOLO v1[35]中采用平方根w和h来缓解这种影响而YOLO v3[2]使用2−wh。为了更好地计算真实边界框与预测边界框之间的差异从Unitbox开始使用IoU loss[36]。为了保证训练的稳定性Bounded-IoU loss[37]引入了IoU的上界。对于训练对象检测和实例分割的深度模型基于IoU的度量被认为比ℓn范式更一致[38,37,39]。原始IoU表示预测边界框与真实边界框的相交面积和并集面积之比(如图1(a)所示)可表示为: 图1:现有边界盒回归指标的计算因子包括GIoU、DIoU、CIoU和EIoU 式中Bgt为真实边界框Bprd为预测边界框。我们可以看到原来的IoU只计算两个边界框的并集面积无法区分两个边界框不重叠的情况。如式1所示如果|Bgt∩Bprd|0则IoU(Bgt, Bprd)0。在这种情况下IoU不能反映两个框是彼此靠近还是彼此很远。于是提出了GIoU[39]来解决这一问题。GIoU可以表示为其中C为覆盖Bgt和Bprd的最小方框(如图1(a)中黑色虚线框所示)|C|为方框C的面积。由于在GIoU损失中引入了惩罚项在不重叠的情况下预测方框会向目标方框移动。GIoU损失已被应用于训练最先进的目标检测器如YOLO v3和Faster R-CNN并取得了比MSE损失和IoU损失更好的性能。但是当预测边界框完全被真实边界框覆盖时GIoU将失去有效性。为了解决这一问题提出了DIoU[40]考虑了预测边界框与真实边界框之间的质心点距离。DIoU的公式可以表示为: 其中ρ2(Bgt, Bprd)为预测边界框中心点与真实边界框中心点之间的欧氏距离(如图1(b)中红色虚线所示)。C2表示最小的封闭矩形的对角线长度(如图1(b)中所示的黑色虚线)。我们可以看到LDIoU的目标直接最小化了预测边界框中心点与真实边界框中心点之间的距离。但是当预测边界框的中心点与真实边界框的中心点重合时会退化为原始IoU。为了解决这一问题提出了同时考虑中心点距离和纵横比的CIoU。CIoU的公式可以写成如下: 但是从CIoU中定义的纵横比是相对值而不是绝对值。针对这一问题在DIoU的基础上提出了EIoU[41]其定义如下: 然而如图2所示当预测的边界框和真实边界框具有相同的宽高比但宽度和高度值不同时上述用于边界框回归的损失函数将失去有效性这将限制收敛速度和精度。因此考虑到LGIoU[39]、LDIoU[40]、LCIoU[42]、LEIoU[41]所具有的优点我们尝试设计一种新的损失函数LMPDIoU用于边界框回归同时具有更高的边界框回归效率和精度。然而边界框回归的几何性质在现有的损失函数中并没有得到充分的利用。因此我们提出了MPDIoU损失通过最小化预测边界框和真实边界框之间的左上和右下点距离以更好地训练目标检测、字符级场景文本识别和实例分割的深度模型。图2:具有不同边界框回归结果的两种情况。绿框表示真实边界框红框表示预测边界框。LGIoU、LDIoU、LCIoU这两种情况的LMPDIoU值完全相同但它们的LMPDIoU 3.点距最小的并集交点在分析了上述基于IoU的损失函数的优缺点后我们开始思考如何提高边界框回归的精度和效率。一般来说我们使用左上角和右下角点的坐标来定义一个唯一的矩形。受边界框几何特性的启发我们设计了一种新的基于IoU的度量称为MPDIoU直接最小化预测边界框与真实边界框之间的左上和右下点距离。算法1总结了MPDIoU的计算。综上所述我们提出的MPDIoU简化了两个边界框之间的相似性比较可以适应重叠或非重叠的边界框回归。因此在2D/3D计算机视觉任务中使用的所有性能测量中MPDIoU可以作为IoU的适当替代品。在本文中我们只关注二维目标检测和实例分割我们可以很容易地将MPDIoU作为度量和损失。扩展到非轴对齐的3D情况是留给未来的工作。 3.1 MPDIoU边界框回损失函数在训练阶段模型预测的每个边界框Bprd[xprd, yprd, wprd,hprd]TBprd[xprd, yprd, wprd,hprd]T通过最小化损失函数迫使其逼近其真实边界框Bgt[xgt, ygt, wgt,hgt]T 其中Bgt为真实边界框的集合Θ为深度回归模型的参数。L的典型形式是n-范数如均方误差(MSE)损失和Smooth-l1损失[43]在目标检测中被广泛采用[44];行人检测[45,46];场景文本识别[34,47];三维目标检测[48,49];姿态估计[50,51];以及实例分割[52,26]。然而最近的研究表明基于n-范数的损失函数与评价度量即IoU(interaction over union)不一致而是提出了基于IoU的损失函数[53,37,39]。根据上一节MPDIoU的定义我们定义基于MPDIoU的损失函数如下: 因此现有的边界框回归损失函数的所有因子都可以由四个点坐标确定。换算公式如下: 其中|C|表示覆盖Bgt和Bprd的最小封闭矩形面积(xcgt, ycgt)和(xcprd, ycprd)分别表示真实边界框和预测边界框中心点的坐标。wgt和hgt表示真实边界框的宽度和高度wprd和hprd表示预测边界框的宽度和高度。由式(10)-式(12)可知现有损失函数中考虑的所有因素如不重叠面积、中心点距离、宽度和高度偏差等均可由左上点和右下点的坐标确定说明我们提出的LMPDIoU不仅考虑周到而且简化了计算过程。根据定理3.1如果预测边界框和真实边界框的宽高比相同则在真实边界框内的预测边界框的LMPDIoU值低于在真实边界框外的预测框。这一特性保证了边界框回归的准确性使得预测的边界框具有较少的冗余性。图3:我们提出的LMPDIoU的参数图4:具有相同长宽比但不同宽度和高度的预测边界框和真实边界框示例其中k1, k∈R其中绿色框为真实边界框红色框为预测框定理3.1.我们定义一个真实边界框为Bgt两个预测边界框为Bprd1和Bprd2。输入图像的宽度和高度分别为w和h。假设Bgt, Bprd1和Bprd2的左上和右下坐标分别为(x1gt,y1gt,x2gt, y2gt)(x1prd1,y1prd1, x2prd1, y2prd1)和(x1prd2,y1prd2, x2prd2, y2prd2)则Bgt, Bprd1和Bprd2的宽度和高度可以表示为(wgty2gt-y1gt,wgtx2gt-x1gt)和(wprd1y2prd1-y1prd1,wprdy2prd1-y1prd1和(wprd2y2prd2-y1prd2,wprdy2prd2-y1prd2)。若wprd1k*wgt,hprd1k*hgt则wprd21k*wgt,hprd21k*wgt其中k1和k∈N*。 Bgt,Bprd1和Bprd2的中心点都是重叠的。则GIoU(Bgt, Bprd1)GIoU(Bgt, Bprd2)DIoU(Bgt, Bprd1)DIoU(Bgt, Bprd2)CIoU(Bgt, Bprd1)CIoU(Bgt, Bprd2)EIoU(Bgt, Bprd1)EIoU(Bgt, Bprd2)但MPDIoUBgt,Bprd1MPDIoUBgt, Bprd2。考虑真实边界框Bgt是一个面积大于零的矩形即Agt0. Alg. 2(1)和Alg. 2(6) 中的条件分别保证了预测区域Aprd和交集区域I是非负值即Aprd≥0和I≥0∀Bprd∈R4。因此联合区域μ0;对于任何预测边界框Bprdx1prd,y1prd,x2prd,y2prd∈R4。这确保了IoU中的分母对于任何预测值的输出都不会为零。此外对于Bprdx1prd,y1prd,x2prd,y2prd∈R4的任意值其并集面积总是大于交集面积即μ≥I。因此LMPDIoU总是有界的即0≤LMPDIoU≤3,∀Bprd∈R4。当IoU0时LMPDIoU的情况:对于MPDIoU损失我们有LMPDIoU1-MPDIoU1d12d2d22d2-IoU。当Bgt与Bprd不重叠即IoU0时MPDIoU损失可简化为LMPDIoU1-MPDIoU1d12d2d22d2。在这种情况下通过最小化LMPDIoU我们实际上最小化了d12d2d22d2。这一项是0到1之间的归一化测度即0≤d12d2d22d2≤2。 4.实验结果我们通过将新的边界框回归损失LMPDIoU入最流行的2D目标检测器和实例分割模型(如YOLO v7[6]和YOLACT[26])来评估我们的边界框回归损失LMPDIoU。为此我们用LMPDIoU替换它们的默认回归损失即我们替换了YOLACT[26]中的l1-smooth和YOLO v7[6]中的LCIoU。我们还将基准损失与LGIoU进行了比较。 4.1 实验设置实验环境可以概括为:内存为32GB操作系统为windows 11, CPU为Intel i9-12900k显卡为NVIDIA Geforce RTX 3090内存为24GB。为了进行公平的比较所有的实验都是用PyTorch实现的[54]。 4.2 数据集我们训练了所有目标检测和实例分割基线并报告了两个标准基准测试的所有结果即PASCAL VOC[10]和Microsoft Common Objects in Context (MS COCO 2017)[11]挑战。他们的培训方案和评估的细节将在各自的章节中解释。 PASCAL VOC 20072012: PASCAL Visual Object Classes (VOC)[10]基准是用于分类、目标检测和语义分割的最广泛的数据集之一它包含了大约9963张图像。训练数据集和测试数据集各占50%其中来自20个预定义类别的目标用水平边界框进行标注。由于用于实例分割的图像规模较小导致性能较弱我们只使用MS COCO 2017进行实例分割结果训练。 MS COCO: MS COCO[11]是一个广泛使用的图像字幕、目标检测和实例分割的基准它包含了来自80个类别的超过50万个带标注目标实例的训练、验证和测试集的20多万张图像。 IIIT5k: IIIT5k[12]是一种流行的带有字符级注释的场景文本识别基准它包含了从互联网上收集的5000个裁剪过的单词图像。字符类别包括英文字母和数字。有2000张图像用于训练3000张图像用于测试。 MTHv2: MTHv2[13]是一种流行的带有字符级标注的OCR基准。汉字种类包括简体字和繁体字。它包含了3000多幅中国历史文献图像和100多万汉字。 4.3评价指标在本文中我们使用了与MS COCO 2018 Challenge[11]相同的性能指标来衡量我们的所有结果包括针对特定IoU阈值的不同类别标签的平均平均精度(mAP)以确定真阳性和假阳性。我们实验中使用的目标检测的主要性能指标是精度和mAP0.5:0.95。我们报告IoU阈值的mAP值为0.75如表中AP75所示。对于实例分割我们实验中使用的主要性能度量是AP和AR它是在不同的IoU阈值上平均mAP和mAR即IoU {.5,.55,…, .95}。所有的目标检测和实例分割基线也使用MS COCO 2017和PASCAL VOC 20072012的测试集进行了评估。结果将在下一节中显示。 4.4 目标检测实验结果训练策略。我们使用了由[6]发布的YOLO v7的原始Darknet实现。对基准结果(使用GIoU loss进行训练)我们在所有实验中选择DarkNet-608作为主干并使用报告的默认参数和每个基准的迭代次数严格遵循其训练策略。为了使用GIoU, DIoU, CIoU, EIoU和MPDIoU损失来训练YOLO v7我们只需将边界框回归IoU损失替换为2中解释的LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失。图5:MS COCO 2017[11]和PASCAL VOC 2007[10]测试集的目标检测结果使用(从左至右)LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失训练的YOLO v7[6] 表1:使用自身损失LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失训练的YOLO v7[6]的性能比较。结果报告在PASCAL VOC 20072012的测试集上图6:使用LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失在PASCAL VOC 2007和2012[10]上训练YOLO v7[6]时的bbox损失和AP值。按照原始代码的训练方法我们在数据集的训练集和验证集上使用每个损失训练YOLOv7[6]最多可达150 epoch。我们将早停机制的patience设置为5以减少训练时间保存性能最好的模型。在PASCAL VOC 20072012的测试集上对每个损失使用最佳检查点的性能进行了评估。结果见表1。 4.5 字符级场景文本识别的实验结果训练方法。我们在目标检测实验中使用了类似的训练方案。按照原始代码的训练协议我们在数据集的训练集和验证集上使用每个损失训练YOLOv7[6]最多30个epoch。使用IIIT5K[12]和MTHv2[55]的测试集对每次损失使用最佳检查点的性能进行了评估。结果见表2和表3。图7:使用(从左至右) LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失训练的YOLOv7[6]对IIIT5K[12]测试集的字符级场景文本识别结果。表2:使用自身损失LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失训练的YOLO v7[6]的性能比较。结果报告在IIIT5K测试集上。表3:使用自身损失LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失训练的YOLO v7[6]的性能比较。在MTHv2测试集上报告了结果从表2和表3的结果可以看出与现有的LGIoU, LDIoU, LCIoU, LEIoU等回归损失相比使用LMPDIoU作为回归损失训练YOLO v7可以显著提高其性能。我们提出的LMPDIoU在字符级场景文本识别方面表现出色。 4.6 实例分割的实验结果训练方法。我们使用了最新的PyTorch实现的YOLACT[26]由加州大学发布。对于基准结果(使用LGIoU训练)我们在所有实验中选择ResNet-50作为两个YOLACT的骨干网络架构并使用报告的默认参数和每个基准的迭代次数遵循其训练协议。为了使用GIoU, DIoU, CIoU, EIoU和MPDIoU损失来训练YOLACT我们用2中解释的LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失替换了它们在最后边界框细化阶段的ℓ1-smooth。与YOLO v7实验类似我们用我们提出的LMPDIoU替换了边界框回归的原始损失函数。如图8(c)所示将LGIoU, LDIoU, LCIoU, LEIoU作为回归损失可以略微提高YOLACT在MS COCO 2017上的性能。然而与使用LMPDIoU进行训练的情况相比改进是明显的在LMPDIoU中我们针对不同的IoU阈值可视化了不同的掩膜AP值即0.5≤IoU≤0.95。与上述实验类似使用LMPDIoU作为对现有损失函数的回归损失可以提高检测精度。如表4所示我们提出的LMPDIoU在大多数指标上比现有的损失函数表现得更好。然而不同损失之间的改进量比以前的实验要少。这可能是由几个因素造成的。首先YOLACT[26]上的检测锚框比YOLO v7[6]更密集导致LMPDIoU优于LIoU的场景更少例如不重叠的边界框。其次现有的边界框回归的损失函数在过去的几年里得到了改进这意味着精度的提高是非常有限的但效率的提高还有很大的空间。图8:在MS COCO 2017[11]上使用LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失以及不同IoU阈值下的掩模AP值对YOLACT[26]进行训练迭代时的bbox loss和box AP值图9:MS COCO 2017[11]和PASCAL VOC 2007[10]测试集的实例分割结果使用(从左至右) LGIoU, LDIoU, LCIoU, LEIoU和LMPDIoU损失训练的YOLACT[26]。我们还比较了不同回归损失函数下YOLACT训练期间边界框损失和AP值的变化趋势。如图8(a)、(b)所示使用LMPDIoU进行训练的效果优于大多数现有的损失函数LGIoU、LDIoU准确率更高收敛速度更快。虽然边界框loss和AP值波动较大但我们提出的LMPDIoU在训练结束时表现更好。为了更好地揭示不同损失函数在实例分割边界框回归中的性能我们提供了一些可视化结果如图5和图9所示。我们可以看到与LGIoU, LDIoU, LCIoU, LEIoU相比我们基于LMPDIoU提供了更少冗余和更高精度的实例分割结果。表4:YOLACT的实例分割结果[26]。我们使用LGIoU, LDIoU, LCIoU, LEIoU对模型进行再训练并将结果报告在MS COCO 2017的测试集上[11]。记录训练期间的FPS和时间 5.结论本文引入了一种基于最小点距的MPDIoU度量用于比较任意两个边界框。我们证明了这个新指标具有现有基于IoU的指标所具有的所有吸引人的属性同时简化了其计算。在2D/3D视觉任务的所有性能测量中这将是一个更好的选择。我们还提出了一个称为LMPDIoU的损失函数用于边界框回归。我们使用常用的性能度量和我们提出的MPDIoU将其应用于最先进的目标检测和实例分割算法从而提高了它们在流行的目标检测、场景文本识别和实例分割基准(如PASCAL VOC、MS COCO、MTHv2和IIIT5K)上的性能。由于度量的最优损失是度量本身我们的MPDIoU损失可以用作所有需要2D边界框回归的应用程序的最优边界框回归损失。对于未来的工作我们希望在一些基于目标检测和实例分割的下游任务上进行进一步的实验包括场景文本识别、人物再识别等。通过以上实验我们可以进一步验证我们提出的损失函数的泛化能力。

查看全文

http://www.sadfv.cn/news/314157/