LocNet:提高定位精度为目标检测外文翻译资料

 2023-01-15 04:01

LocNet:提高定位精度为目标检测

概述

我们提出了一种新的对象定位方法目的提高最先进的目标检测系统的定位精度.我们的模型,给定一个搜索区域,旨在返回该区域内感兴趣的对象的边界框。为了实现其目标,它依赖于为该区域的每一行和每一列分配条件概率,其中这些概率提供了关于搜索区域内对象边界位置的有用信息,并允许在一个简单的概率框架下精确推断对象边界框。为了实现我们的定位模型,我们利用 适当的卷积神经网络体系结构 适应这项任务,称为LocNet。我们实验表明,LocNet在 PASCALVOC2007测试中高IoU阈值的mAP 设置和它可以非常容易地与最近最先进的对象检测系统耦合,帮助他们提高他们的性能。最后,我们证明了我们的检测方法即使作为输入一组滑动窗口,也能达到较高的检测精度,从而证明了它与盒建议方法无关。

图1:说明我们的定位模块的基本工作流程。 左栏:我们的模型给定一个候选框B(黄色框),它“看起来”在一个搜索区域R(红色框),这是通过一个常数因子放大框B,以定位感兴趣的对象的包围框。 右列:为了定位一个边界框,模型在每一行上独立地在区域R的每一列上分配一个或多个概率。这些概率可以是元素(行或列)成为四个对象边界之一的概率(参见右上图),也可以是位于对象边界框内部的概率(参见右下图)。 在这两种情况下,预测的绑定框是用蓝色绘制的。

  1. 导言

物体检测是一个计算机视觉问题 在过去的几年里引起了大量的关注。 检测系统能够预测感兴趣对象的包围盒的定位精度通常是基于预测和地面真相包围盒之间的联盟交叉(IoU)来判断的。虽然在PASCALVOC等挑战中,IoU检测阈值为0.5用于确定对象是否已成功检测,但在实际应用中,定位精度较高(例如。 通常需要IoUgt;0.7)(例如,考虑必须抓住物体的机器人手臂的任务)。这种需要也反映在最近引入的COCO检测挑战[23]中,该挑战使用传统的平均精度(A P)测量作为评估度量,但在0.5(松散定位对象)和1.0(完全定位对象)之间的多个IoU阈值上平均,以奖励具有良好定位精度的检测器。 因此,提出具有高度精确(而不是松散)定位地面真实物体的探测器应该是未来目标检测的主要挑战之一。 这项工作的目的是朝着 应对这一挑战。 实际上,我们的目标是提高包围盒检测AP的性能 广泛的IoU阈值(即,不仅对于IoU阈值为0.5,而且对于远高于该阈值的值)。为此,本工作的一个主要技术贡献是提出了一种新的对象定位模型,该模型在图像中给出了一个松散本地化的搜索区域,目的是返回该区域中对象的准确位置(见图1)。这个新模型的一个关键组成部分是 不依赖于常用的包围盒回归 范式,它使用回归函数直接预测对象边界框坐标。事实上,我们工作背后的动机来自于这样一种信念,即试图直接回归到目标边界框坐标,这是一项困难的学习任务,无法产生足够准确的边界框。我们认为,首先给每一行分配一个概率,然后独立地给每一列来定位一个边界框,效果要好得多 搜索区域的左边、右边、顶部或底部边界框的边界(见图)或物体包围盒的内部(见图1底)。此外,这种概率可以提供一种度量 在每个位置放置包围盒的信心 它们还可以处理显示多模态的实例 边界位置的分布。它们的产量 比回归更详细和有用的信息模型,只预测4个真实值,对应于边界盒坐标的估计。 此外,我们认为学习预测的任务这些概率是一个更容易完成的概率。 为了实现所提出的定位模型,我们依赖于在卷积神经网络模型上,我们称之为 LocNet,其架构经过适当调整, 顶部完全连接所需的参数量层大大减少,从而使我们的LocNet 模型相对于对象类别的数量可伸缩。重要的是,这种定位模块可以很容易地集成到许多当前最先进的对象中检测系统[9,10,28],帮助他们显著地提高他们的本地化性能。我们在这里用一种迭代方式,作为检测管道的一部分,该检测管道利用识别模型对候选边界进行评分 由上述定位模块提供的盒子, 并表明,这种方法大大提高了AP的性能跨越广泛的IoU阈值。 相关工作。 最近关于物体检测的大多数文献,通过结合与类别无关的对象建议算法[35、40、26、1、18、19、2、34、33]在给定图像的情况下,在预识别水平上处理对象定位问题,尝试生成对它们所覆盖的地面真相对象具有高召回率的候选盒。 这些建议后来从一个特定类别的识别模型中分类,以创建最终的检测清单[11]。

相反,在我们的工作中,我们的重点是促进本地化 在识别后时间的准确性,在这种情况下,改进可以补充那些通过改进识别前定位获得的。 到目前为止,这一层面的工作一直局限于Felzenszwalb等人首次引入的包围盒回归范式。 [8]而且自那时以来,它已成功地用于最近的大多数检测系统[11、10、28、30、14、37、39、29、24]。一个回归模型,给定一个松散地定位在物体周围的初始候选盒,它试图预测其地面真相包围盒的坐标。 最近,该模型被高容量卷积神经网络增强,以进一步提高其定位能力[9,10,30,28]。总之,我们的贡献如下: 我们提出了一个对象边界定位问题 框,如在每一行上分配概率和 搜索区域的列。这些概率表示每个元素(行或列)属于包围框内部的可能性,或者成为object的四个边界之一的可能性。对这两种情况进行了研究和比较包围盒回归模型。 为了实现上述模型,我们提出了一种合适的卷积神经网络体系结构减少了参数和结果 在高效、准确的对象定位网络中 (Loc Net)。我们广泛评估我们对VOC2007的方法[5] 结果表明,对于IoU阈值为0.7和IoU阈值的mAP,它比包围盒回归有了很大的改善测量mAP的COCO风格。 它还提供 传统方式的改进 测量mAP(即IoUgt;0.5),实现在这种情况下,78.4%和74.78%的AP对VOC2007[5] 和VOC2012[6]测试集,这是最先进的,在撰写本文。考虑到这些结果,我们认为我们的本地化方法可以很好地取代了现有的包围盒回归未来目标检测系统的范例。最后,我们证明了检测精度的准确性。我们的系统仍然很高,即使它被作为输入一组滑动窗口,证明它独立于包围盒建议方法,如果额外的计算成本被忽略。论文的其余部分结构如下:在sect;2中描述我们的目标检测方法,然后描述我们的目标检测方法在sect;3中给出我们的定位模型。实现细节和实验结果分别在sect;4和sect;5中提供.最后,我们在第6节中得出结论。

2 物体检测方法

算法1:目标检测管道

Input : Image I, initial set of candidate boxes B[1]

Output: Final list of detections Y for t J 1 to T do

S — Recognition(Bt |I)

if t lt; T then

I Bt 1 — Localization^ |I)

end

end

D JUt=i(S, B}

我们的检测管道包括两个基本组成部分,即识别和定位模型,集成到一个迭代方案中(见算法1)。 该方案从一组初始候选框B1(例如,可以是密集滑动窗口[30、25、27、22]或类别无关的包围框建议[40、35、28])开始,在每次迭代时,它使用以下两个基本组件: 识别模型:给定当前一组候选框Blsquo;=(Bl}N=1,它为它们中的每个(s;}N=1分配一个置信度分数,表示这些框在感兴趣的对象上本地化的可能性。本地化模型:给定当前的候选框集BL=(B;}N=1,它生成一组新的Candi日期框Bt1=(B;1}N1,使这些框在感兴趣的目标上“更接近”(即更好的本地化)(因此它们可能比识别模型得分更高)。 最后,从定位模型中生成的每次迭代上的候选盒以及从识别模型中分配给它们的信任分数被合并在一起,并将边界框投票[9]中遵循的非最大抑制[8]的后处理步骤应用于它们。 这个后处理步骤的输出包括从我们的管道中引入的检测集。 识别和localization模型都是以卷积神经网络[21]的形式实现的,最近在计算机视觉任务,特别是与对象识别问题有关的任务[31,20,13,16,32]上得到了相当成功的经验证明。我们的检测管道的更多细节见附录E。迭代对象定位也得到了探索[3,9,12,36]。 值得注意的是,Gidaris和Komodakis[9]将基于CNN的回归与迭代定位相结合,而Caicedo等人则是如此。 [3]和Yoo等人。 [36]试图通过在转换包围框或停止搜索过程的几个可能的操作中依次选择一个来对对象进行缩放。

图2:我们的定位模型产生的后验概率给定一个区域R.左图像:在R的每一行(Py)和列(PX)上分配的输入条件Prob能力。它们是用蓝色曲线在搜索区域的右侧和底部绘制的。 右图:每一列或每一行的条件概率pi、pr、pt和pb是对象包围框的左(/)、右(R)、顶部(T)和底部(B)边框。 它们在搜索区域的底部和右侧用蓝色和红色曲线绘制。

3.定位模型

在本文中,我们重点改进了该管道的定位模型。 我们为这个模型使用的抽象工作流程是,它作为图像中的输入一个候选框B,它将它放大一个因子71以创建一个搜索ReGionR,然后它返回一个新的候选框,理想情况下,它将紧紧地包围这个区域中感兴趣的对象(见图1右列)。 当然,关键的问题是,什么是最有效的方法来构建一个能够产生一个良好的盒子预测的模型。 例如,一种选择可以是学习一个直接预测4个边界框坐标的回归函数。 然而,我们认为这不是最有效的解决办法。 相反,我们选择了一种不同的方法,详见下一节。

3.1.模型预测

给定一个搜索区域R和对象类别c,我们的目标定位模型考虑了R在M等水平区域(行)中的除法以及R在M等垂直区域(列)中的除法,并为它们中的每一个或多个条件概率输出。 这些条件概率中的每一个本质上都是形式pR,c=(p(I|R,c)}M=1的向量(以下我们删除R和c的变量,以减少符号杂波)。 这里考虑两种条件概率:边界概率,外部概率。

3.1.1敲箱推理

考虑到上述输出条件概率,我们模拟包围盒位置B=(Bl ,Bt,Br,Bb)使用下列概率模型:In-Out MLBorders MLCombined ML

3.1.2 详述

我们认为拟议的定位对象的边界框的问题是最高级是因为在外或边界概率提供了更详细和有用的资料与典型的盒回归范式相比,包围盒位置。尤其是在以后如果模型只是直接预测COR响应估计的包围盒坐标的真实值,但它确实如此 不提供,例如,对这些提供任何置信度。相反,我们的模型提供了一个条件放置四个边框或在 对象在搜索的每一列和每一行上的包围框。因此,它完全有能力处理 还显示多模态条件的实例(在训练和测试期间)。在训练期间,我们 认为这使得每行和每列可能性比边界更容易从实现模型的卷积神经网络中学习。框回归任务(例如见图3),从而帮助 模型收敛到一个更好的训练解决方案。实际上,就像例如在图4中,我们演示了基于CNN的内部输出 ML定位模型收敛速度更快,并且具有更高的精度而不是基于CNN的包围盒回归模型。这种行为在我们所有的专业中都得到了一致的观察,提出了定位模型。此外,在测试过程中,可以利用我们所看到的这些条件分布条件,以形成双元模型来推断边界盒坐标。此外,它们还可以表明 区域内的二审,从而促进多个相邻实例的定位,这是一个差异- 物体检测的邪教问题。实际上,在想象边界概率的时候,我们观察到这在一些情况下是可能的(例如,见图5)。艾尔虽然在这项工作中我们没有探讨利用更先进的概率模型来预测 Kgt;每个区域R1盒,这肯定是我们方法的一个有趣

的未来补充。

图3:我们展示了训练过程中的演变。 在左图中绿色方格表示左边框的两个最高模式由一个网络预测的概率只训练了几个迭代次数(5k)。 尽管最高者是错误的,网络还维护正确模式的信息。随着训练的进展(50k),这有助于网络纠正错误并恢复正确的左边框(见右图像)。

图4:mAR作为训练迭代的函数。 包围盒回归模型(Bboxreg) 以及在外ML 定位模型。 为了创建这个情节,我们创建了一个小的候选盒验证集,每个候选盒上都分配了一个地面真相包围框,在训练中,将这些候选作为模型的输入,我们测量预测框的mAR。 我们观察到,在外ML定位模型比包围盒回归定位模型收敛得更快,更高的mAR。

图5:我们描述了左边(蓝色)和右边的概率 (红色)一个经过训练的模型对两个区域产生的边界 同一类(牛)的实例。 其中的概率模式 案例可以清楚地表明存在两个

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239508],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。