具有线性瓶颈的倒残差结构:用于分类、检测和分割的移动网络外文翻译资料

 2023-03-15 04:03

具有线性瓶颈的倒残差结构:用于分类、检测和分割的移动网络

摘要:本文提出了一种新的移动架构MobileNetv2,改善了多个任务和基准的State-of-the-art水平。同时我们介绍了一种基于此框架的面向目标检测任务的有效应用模型SSDLite。此外,我们介绍了简化移动语义分割模型DeepLabv3构建新的Mobile DeepLabv3.MobileNetv2架构是基于倒置残差结构(inverted residual structure),原本的残差结构的主分支是有三个卷积,两个逐点卷积通道数较多,而倒置的残差结构刚好相反,中间的卷积通道数(依旧使用深度分离卷积结构)较多,旁边的较小。此外,我们发现去除主分支中的非线性变换是有效的,这可以保持模型表现力。论文在ImageNet classification, COCO object detection, VOC image segmentation上做了对比实验,验证了该架构的有效性。

1.介绍

现代先进网络需要的高计算资源超出了移动和嵌入式设备的能力。本文针对这一资源限制条件设计了一套新的神经网络架构,该架构能在保持类似精度的条件下显著的减少模型参数和计算量。

论文的主要贡献在于提出一种新型层结构: 具有线性瓶颈的倒残差结构(the inverted residual with linear bottleneck)。

该模块首先将输入的低维压缩表示(low-dimensional compressed representation)扩展到高维,使用轻量级深度卷积做过滤;随后用linear bottleneck将特征投影回低维压缩表示。 这个模块可以使用任何现代框架中。此外,该模块特别适用于移动设备设计,它在推理过程不实现大的张量,这减少了需要嵌入式硬件设计对主存储器访问的需求。

2. 相关工作

调整深度神经网络在精度和性能之间取得一个最佳平衡,是近几年的热门话题。 许多工作致力于方向可分为:

1.改进先进模型达到更加性能;

2.超参数调优以及各种网络修剪方法和连通性学习;

3.改变内容卷积块的联通结构,例如ShuffleNet引入稀疏性等。

4.最近,也有一个新方向将包括遗传算法和强化学习在内的优化算法引入,这使得得到的模型非常复杂。

我们追求的是找到关于神经网络操作使用的发展方向,这可以更简易的指导网络设计。我们的网络设计基于MobileNetV1的,保留了该模型的简单性,显著的提高了其准确性,达到了针对移动应用的分类和检测应用的先进水平。

3. 讨论和灵感

3.1、深度可分离卷积

将标准卷积拆分为深度分离卷积在MobileNetv1中详细讲解过了,其基本思想:将标准卷积拆分为两个分卷积:第一层称为深度卷积(depthwise convolution),对每个输入通道应用单通道的轻量级滤波器;第二层称为逐点卷积(pointwise convolution),负责计算输入通道的线性组合构建新的特征。

MobileNetv2中使用的卷积核大小k=3,与标准卷积相比计算量减少了8~9倍,精度上有略微的损失。

3.2、线性瓶颈层

我们认为深度神经网络是由n个Li​层构成,每层经过激活输出的张量为hitimes;witimes;di​。我们认为一连串的卷积和激活层形成一个兴趣流形(manifold of interest,这就是我们感兴趣的数据内容),现阶段还无法定量的描述这种流行,这里以经验为主的研究这些流行性质。

长期以来我们认为:在神经网络中兴趣流行可以嵌入到低维子空间,通俗点说,我们查看的卷积层中所有单个d通道像素时,这些值中存在多种编码信息,兴趣流行位于其中的。我们可以通过变换,进一步嵌入到下一个低维子空间中(例如通过1times;1卷积变换维数,转换兴趣流行所在空间维度)。

乍一看,这样的想法比较容易验证,可通过减少层维度从而降低激活空间的维度MobileNetv1是通过宽度因子(width factor)在计算量和精度之间取折中。用上面的理论来说,宽度因子控制激活空间的维度,直到兴趣流行横跨整个空间。

然而,由于深度卷积神经网络的层是具有非线性激活函数的。以ReLU变换(F(x)=max(0,x))为例,会存在以下问题:

1.如果当前激活空间内兴趣流行完整度较高,经过ReLU,可能会让激活空间坍塌,不可避免的会丢失信息。

2.如果经过ReLU变换输出是非零的,那输入和输出之间是做了一个线性变换的,即将输入空间中的一部分映射到全维输出,换句话来说,ReLU的作用是线性分类器。

下图展现了兴趣流行的变换示例:

Input是一张2维数据,其中兴趣流行是蓝色的螺纹线;本例使用矩阵T将数据嵌入到n维空间中,后接ReLU,再使用Tminus;1将其投影回2D平面。可以看到设置n=2,3时信息丢失严重,中心点坍塌掉了。当n=15..30之间,恢复的信息明显多了。总结一下,我们强调了两个性质:

1.如果兴趣流行经过ReLU变换后得到非零的结果,这时ReLU对应着是一个线性变换。

2.只有当输入流行可包含在输入空间的低维子空间中,ReLU才能完整的保持输入流行的信息。

存在的问题: 我们想要兴趣流行存在低维空间中,即想要提升效果,维度是要低一点。但是维度如果低的话,激活变换ReLU函数可能会滤除很多有用信息,而ReLU对于没有滤除的部分,即非零的部分的作用是一个线性分类器。

既然在低维空间中使用ReLU做激活变换会丢失很多信息,论文针对这个问题使用linear bottleneck(即不使用ReLU激活,做了线性变换)的来代替原本的非线性激活变换。到此,优化网络架构的思路也出来了:通过在卷积模块中后插入linear bottleneck来捕获兴趣流行。 实验证明,使用linear bottleneck可以防止非线性破坏太多信息。

从linear bottleneck到深度卷积之间的的维度比称为Expansion factor(扩展系数),该系数控制了整个block的通道数。 linear bottleneck的使用操作的流程演化图如下:

图(a):普通模型架构使用标准卷积将空间和通道信息一起映射到下一层,参数和计算量会比较大;

图(b),MobileNetv1中将标准卷积拆分为深度卷积和逐点卷积,深度卷积负责逐通道的过滤空间信息,逐点卷积负责映射通道。将空间和通道分开了;

图(c)和图(d)是MobileNetv2的结构(d是c的下一个连接状态),同样是将标准卷积拆分为深度卷积和逐点卷积,在逐点卷积后使用了接1times;1卷积,该卷积使用线性变换,总称为一层低维linear bottleneck,其作用是将输入映射回低维空间。

3.3、倒置参差

由上面的分析,直觉上我们认为linear bottleneck中包含了所有的必要信息,对于Expansion layer(即linear到深度卷积部分)仅是伴随张量非线性变换的部分实现细节,我们可将shortcuts放在linear bottleneck之间连接。示意图如下:

选择这样的结构,可以提升梯度在乘积层之间的传播能力,有着更好的内存使用效率。下表是bottleneck convolution的基本实现:

首先是1times;1 conv2d变换通道,后接ReLU6激活(ReLU6即最高输出为6,超过了会clip下来);

中间是深度卷积,后接ReLU;

最后的1times;1 conv2d后面不接ReLU了,而是论文提出的linear bottleneck

Inverted residuals结构示意图如下(方块的高度即代表通道数):

可以看到相比与之前的残差模块,中间的深度卷积较宽,除了开始的升维的1times;1卷积,做shortcut的1times;1卷积通道数较少,呈现的是倒立状态,故称为Inverted residuals。

这样的结构在构建block时,自然的将输入和输出分离了。把模型的网络expressivity(expansion layers,由扩展层决定)和capacity(encoded by bottleneck inputs,由bottleneck通道决定)分开。

3.4、网络结构

构建的MobileNetv2的基本单元是bottleneck depth-separable convolution,下表给出了MobileNetv2的结构体系:

其中初始的全卷积为32个卷积核,后面接了19个 residual bottleneck layers。这里使用ReLU6(即f(x)=min{max(0,x),6})作为非线性激活函数,这样在低精度计算下具有更强的鲁棒性。对于我们所有的实验,选择扩展因子(expansion factor)等于6,例如采用64的通道的输入张量产生128通道的输出,则中间的深度卷积的通道数为6times;64=384。

参考文献

[1] Olga Russakovsky, Jia Deng, Hao Su, JonathanKrause, Sanjeev Satheesh, Sean Ma, ZhihengHuang, Andrej Karpathy, Aditya Khosla, MichaelBernstein, Alexander C. Berg, and Li Fei-Fei. Imagenet large scale visual recognition challenge.Int. J. Comput. Vision, 115(3):211–252, December2015. 1

[2] Tsung-Yi Lin, Michael Maire, Serge Belongie,James Hays, Pietro Perona, Deva Ramanan, PiotrDollar, and C Lawrence Zitnick. Microsoft COCO: acute;Common objects in context. In ECCV, 2014. 1, 7

[3] Mark Everingham, S. M. Ali Eslami, Luc VanGool, Christopher K. I. Williams, John Winn, andAndrew Zisserma. The pascal visual object classeschallenge a retrospective. IJCV, 2014. 1, 8

[4] Mobilenetv2 source code. Available fromhttps://github.com/tensorflow/

models/tree/master/research/slim/nets/mobilenet. 1

[5] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E.Hinton. Imagenetclassification with deep convolutional neural networks. In Bartlett et al. [47], pages1106–1114.

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[595970],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。