基于学习的视频编码关键技术研究外文翻译资料-综述翻译网

本科生毕业设计（论文）外文资料译文

（ 2020届）

论文题目	基于学习的视频编码关键技术研究

外文资料译文规范说明

一、译文文本要求

1．外文译文不少于3000汉字；

2．外文译文本文格式参照论文正文规范（标题、字体、字号、图表、原文信息等）；

3．外文原文资料信息列文末，对应于论文正文的参考文献部分，标题用“外文原文资料信息”，内容包括：

1）外文原文作者；

2）书名或论文题目；

3）外文原文来源：

□出版社或刊物名称、出版时间或刊号、译文部分所在页码

□网页地址

二、外文原文资料（电子文本或数字化后的图片）：

1．外文原文不少于10000印刷字符（图表等除外）；

2．外文原文若是纸质的请数字化（图片）后粘贴于译文后的原文资料处，但装订时请用纸质原文复印件附于译文后。

指导教师意见：

指导教师签名：年月日

一、外文资料译文：

压缩激励网络

关键词： Squeeze-and-Excitation, Image representations, Attention, Convolutional Neural Networks

1. 引言

卷积神经网络（CNNs）已被证明是解决各种视觉任务的有效模型[1], [2], [3], [4]。对于每个卷积层，从输入的特征图通道中学习一组滤波器来表达局部空间的连接模式。换句话说，卷积操作融合了局部感受野范围内的空间上的信息和特征维度上的信息。通过叠加一系列卷积层，非线性层和下采样层，CNN能够从全局感受野上去捕获图像的特征作为图像表示。计算机视觉研究的中心主题是寻找更强大的表示方式——只捕获那些对于给定任务来说的最有用的图像属性，从而提高性能。作为视觉任务的一个广泛使用的模型系列，卷积神经网络的新网络结构的设计发展是这一研究的关键前沿领域。最近的工作已经证明，网络的性能可以通过显式地嵌入学习机制来改善，这种学习机制有助于捕捉空间上的相关性。受欢迎的Inception架构就推广了这样一种方法 [5], [6], 将多尺度处理嵌入网络模型来获得优异性能。还有的研究则试图更好地对空间依赖性建模[7]，[8]，在网络级架构上将注意力机制引入空间维度[9]。

在本文中，我们研究了网络设计的另一个方面——通道之间的关系。我们引入了一个新的网络结构单元，我们将其称为“Squeeze-and-Excitation”（SE）块，其目的是通过显式地建模卷积特征通道之间的相互依赖关系来提高网络输出的表示能力。为此，我们提出了一种机制，该机制允许网络执行特征重新标定，通过该机制它可以学习全局信息并使用其来选择性地提升有用的特征并抑制对当前任务用处不大的特征。

SE构建块的基本结构如图1所示。对于任何给定的变换F_tr（例如卷积）把输入X映射到特征图U，其中Uisin;R^{Wtimes;Htimes;C}，相应地我们都可以构造一个SE块来实现特征重标定。特征图U首先通过squeeze操作，该操作将每一个二维Htimes;W大小的特征图聚合成一个通道描述符(一个实数)。该描述符代表着在特征通道上相应的全局分布，而且使得靠近输入的层也可以获得全局的感受野。squeeze之后是一个excitation操作，基于自选通的门机制为每个通道生成特定的权重。然后这些权重应用于特征图U上重新加权来生成SE块的输出，然后可以继续将其输入到网络的后续层中。

图 1. Squeeze-and-Excitation块

SE网络可以通过简单地堆叠SE块的集合来构建。此外，SE块也可以在任意深度的网络架构中即插即用地简单替代原始的块（第6.4节）来构建一个新网络。值得注意的，虽然构建块的方法可以看做模板，是通用的，但它在网络的不同深度上表现作用是不同的。在前面的层中，它学习以类不可知的方式激发特征信息，从而增强了共享的低维特征的表示能力。在后面接近输出的层中，SE块越来越专业化，并以高度特定于类别的方式响应不同的输入（第7.2节）。因此，SE块进行特征重标定的好处可以在通过整个网络的过程中进行积累。

新CNN架构的设计和开发是一项具有挑战性的工程任务，通常涉及许多新的超参数和网络层配置的选择。相比之下，SE块的设计是简单的，并且可以直接与现有的最新架构一起使用，通过将某些卷积层直接用对应的SE层来替换从而有效地提高性能。并且，SE块在计算上是轻量级的，在模型复杂性和计算负担方面仅略有增加。

为证明这些观点，我们开发了几个SENets并对ImageNet数据集进行了详尽的评估[10]。进一步，我们还展示了在ImageNet以外数据集上的结果，这些结果表明我们的方法的优势并不局限于特定的数据集或任务。通过使用SENets，我们在ILSVRC 2017分类比赛中排名第一。我们最好的集成模型在测试set1上实现了2.251％ top-5的错误率。与上一年的获胜模型相比，大约有25％的相对改善（top-5错误率2.991％）。

2. 相关工作

更深的体系结构。可以从VGGNets [11]和Inception [5]模型中看出，增加网络深度可以显著提高可学习模型的表示能力。批量归一化(BN) [6] 通过调节输入到每一层的分布让深度网络中的学习过程变得更稳定，产生了更平滑的优化表面[12]。在这些工作的基础上，ResNets证明使用基于恒等映射的跳跃连接可以很好地学习到更深，更强大的网络[13]，[14]。有着同样思想的高速公路网络[15]，引入了一种门控机制来调节流经捷径连接的信息量。在完成这些工作之后，网络层之间特征的重新融合[16]，[17]被证明可以进一步地改善深度网络的学习能力和对特征属性的表示能力。

另外，一些密切相关的工作将研究重心放在改进网络中元素计算的函数形式上。分组卷积已被证明可以通过增加基数（划分的分组数目）以学习更丰富的表示[18]，[19]。而更多卷积操作的灵活组合可以在多分支卷积[5]、[6]、[20]、[21]的基础上实现，这也可以视作是分组卷积概念的一种自然的推广。通道之间的相关性通常被映射为新的特征组合，或者独立的空间结构[22]、[23]，或者联合使用标准卷积层[22]和1times;1的卷积。然而大部分工作的目标是集中在减少模型和计算复杂度上面。这种方法反映了一个假设，即通道关系可以被表述为具有局部感受野的实例不可知的函数的组合。相比之下，我们声称为网络提供一种机制来显式建模通道之间的动态、非线性依赖关系，使用全局信息可以减轻学习过程，并且显著增强网络的表示能力。

神经网络架构搜索。除了上述工作外，还有很丰富的研究旨在寻求自动学习网络的结构，放弃手动地设计网络结构。而且，该领域有许多早期工作是神经网络发展社区中进行的，提出了一些在网络拓扑结构上搜索的进化方法[25]，[26]。虽然进化搜索(遗传算法)需要较大计算开销，但是却取得了显著成功，其中包括为序列模型找到良好的记忆单元[27]，[28]，以及为大规模图像分类学习复杂的结构[29]，[30]，[31]。为了减轻这些方法的计算负担，已经有有效的替代方案提出。方案基于拉马克的遗传学说[32]和可微体系结构搜索[33]。

通过将网络架构搜索公式化为超参数优化，简单的随机搜索[34]和其他模型优化的复杂技术变得可以用来解决此类问题[35]，[36]。拓扑选择 [37]和直接架构预测[38] [39]已被作为额外的可行的架构搜索工具。特别是强化学习[40]，[41]，[42]，[43]，[44]已经取得了特别出色的结果。本文的SE块可以用作这些搜索算法的原子构建块，并且可以证明它在并行的工作中很有效[45]。

注意力机制和门机制。从广义上讲，可以将注意力机制视为一种手段，将可用的计算资源的分配偏向于输入信号中最有用部分[46]，[47]，[48]，[49]，[50]，[51]。注意力机制已经证明了它们在许多任务中的效用，包括序列模型[52]，[53]，图像的定位和理解[9]，[54]，图像标题[55]，[56]和口头阅读[57]等任务。在这些应用中，它通常用在表示较高级别抽象的一个或多个层的顶部，以用于模式之间的适应。一些工作在结合空间结构和通道信息且加入注意力机制方面做了许多有意思的研究[58]，[59]。 Wang等人[58]引入了一个强大的基于沙漏模块[8]的trunk-and-mask注意力机制，沙漏模块被加入到深度残差网络的中间阶段。相比之下，我们提出的SE块包括一个轻量级的门机制，该机制着重于通过一个简单有效的计算方式来对通道之间的关系进行建模，增强网络的表示能力。

3. Squeeze-and-Excitation块

Squeeze-and-Excitation块可以构建在任何映射F_tr之上。F_tr : X→U, 其中Xisin;R^{W′times;H′times;C′}，Uisin;R^{Wtimes;Htimes;C}。我们将F_tr看作一个标准的卷积算子。V=[v₁, v₂, hellip;, v_c]表示学习到的一组滤波器核，v_c指的是第c个滤波器的参数。然后我们可以将F_tr的输出写作U=[u₁, u₂, hellip;, u_c]，可得

这里的 lowast; 表示卷积，v_c=[, , hellip;, ]，X=[x¹, x², hellip;, x^C′], u_cisin;R^Wtimes;H。这里是一个2维的空间核，表示v_c中的一条通道作用于X中对应的通道。由于输出是通过所有通道的和来产生的，所以通道的重要程度被隐式地嵌入到v_c中，但是这些对特征维度的依赖性与滤波器捕获的空间上相关性纠缠在一起。我们的目标是确保能够提高网络对信息特征的敏感度，以便后续转换可以利用这些功能，并抑制不太有用的功能。我们建议通过显式地对通道依赖性建模来实现这一点，以便在进入下一个转换之前通过以下两步重标定滤波器的响应，分别为squeeze和excitation。SE块的结构如图1所示。

3.1. Squeeze:全局信息嵌入

为了解决利用通道依赖性的问题，我们首先考虑输出特征中每个通道的信号。每个学习到的滤波器都对局部感受野进行操作，因此变换输出U的每个单元都无法利用该区域之外的上下文信息。为了缓解此问题，我们使用全局平均池化生成基于通道的统计信息，squeeze的操作将每个特征图中的全局空间信息压缩为一个通道的描述符（一个实数）。形式上，统计信息zisin;R^C，是压缩大小为Htimes;W的特征图生成的，因此z的第c个元素可以由下面这个公式计算：

U通过变换的输出可以被解释为局部特征描述符的集合，表现了整个图像具有的特征。类似的利用这样的信息的工作在现在特征工程中也很普遍[60]，[61]，[62]。我们选择了最简单的聚合方法——全局平均池化，注意这里也可以被替换为更多的其他的策略。

3.2. Excitation:自适应重新标定

为了利用squeeze操作中汇聚的信息，我们接下来通过第二步excitation操作来全面捕获通道依赖性。为了实现这一目标，该功能必须满足两个条件：第一，它必须具有灵活性（特别是它必须能够学习通道之间的非线性交互）；第二，它必须学习的是一个非互斥的关系，因为我们要确保允许多个通道能因其重要性而被强调（而不是只能激活一个通道的情况(one-hot activation)）。为了满足这些标准，我们选择采用一个简单的门机制，并使用sigmoid激活函数：

?=?_??(?, ?)=?(?(?, ?))=?(?₂?(?₁?)) , (3)

其中delta;是指ReLU[26]函数，W₁isin;

剩余内容已隐藏，支付完成后下载完整资料

英语原文共 13 页，剩余内容已隐藏，支付完成后下载完整资料

资料编号：[273160]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于学习的视频编码关键技术研究外文翻译资料

您可能感兴趣的文章

登录

您可能感兴趣的文章