英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
CNN、QNN和BNN深度神经网络
摘 要:在本文中,卷积神经网络(CNN)、量子神经网络(QNN)和二值神经网络(BNN)模型使用Tensor Flow的应用程序编程接口(API)进行实时目标检测,并在FPGA上实现。然后,提出实时对象在Python上激活基于CNN、QNN和BNN深度神经网络分类器模式的检测,然后从Pascal VOC中获取数据集。对于实时目标检测的准确性分析,这种基于CNN深度神经网络分类器的实时目标检测比所提出的实时目标检测高出3.458%和1.600%的准确度。在Zynq FPGA开发团队的Xilinx ISE 14.5设计工具中使用Verilog编程语言验证了所提出的基于CNN、QNN和BNN深度神经网络分类器模型的实时目标检测。这些结果表明,基于CNN深度神经网络分类器模型的实时目标检测的FPGA实现有效地达到了目标。
关键词:卷积神经网络;量子神经网络;二值神经网络;
目 录
第三章 基于CNN、QNN和BNN深度神经网络分类器的实时目标检测方法,并在ZYNQ FPGA中实现 6
3.1 使用Zynq Ultra Scale - MPSOC FPGA实现 14
介绍
对象检测是使用矩形边界框对对象进行定位和分类的过程,识别和分类所发现的对象类型与物体分类、语义分割、姿态分割都有一定的关系。对象检测,其涉及单个图像中定位和检测不同类型的对象,提出大约2000个区域来覆盖图像中的对象,许多机器学习、特征提取方法都需要开发目标检测任务并提出了用于提取各种手工特征的方法,例如支持向量机(SVMs)、随机梯度下降(SGD)、卷积神经支持向量机(CNSVM)或多个功能的集成。与常规相比传统的计算机视觉(CV)方案的每个方面都必须手动定义,在CNN中它自动学习从特征的预定义数据库中提取有关方面,在其中,深度学习方法被提出来分离3个神经网络,如CNN,BNN,QNN来检测目标。DNN是用于对象检测(或分类、分割)的骨干网络,随着特征表现性能的提高,网络结构设计也越来越复杂(网络层是更深且网络参数增加)。在这种计算能力和存储能力有限的环境中,比如移动、自动驾驶和工业生产,提出了在不降低特征表示能力的情况下简化网络配置的轻量级网络配置。
在图1中,显示了细胞神经网络的体系结构。在此输入图像提供给二进制卷积层,在这里特征被减少并被提供给用对象分类的活动函数。然后,将图像假设为归一化层,并输出检测为狗的对象。BNN方法是DNN处理器的类型,因为BNN在计算和内存中提供了更大的存储空间。为了进行深入的性能比较,分析了BNN方法与红外(IR)光谱中基于人的图像识别应用的处理器模型。对具有不同模型参数(如内核计数、突触链接)的32位DNN执行算法分析,适合于BNN(ASIC或FPGA)的系统结构设计。
全存储在BNN权重中的局部存储器来加速一般处理,对BNN结构设计的计算效率进行了评估,与GPU设计了BNN系统中的主要计算模块,集成到评估这些功能模块的功耗。在图2中演示了BNN的体系结构。在这里,输入图像被提供给二进制卷积层,在这里特征被减少,然后被提供用于将对象分类为单独形式的活动函数,将图像提供给批处理归一化层,并且输出被检测为狗的对象。在图3中描述了QNN体系结构,网络层对整体性能的贡献各不相同,每个网络层对大小敏感性也各不相同。当网络向前传播时,层次特征的可变性逐渐增加。获得下一个特征所需的精确神经元,当在更深的层中时,更深的语义特征变得可分离,因此粗糙卷积滤波器可以区分先前的局部特征,因此,参数精度可随网络结构、层次特征分布而灵活设计,较高精度的底层能够很好地保留原始数据,而由于上层(批处理归一化层)的较低精度表示,样本大小被进一步压缩。然后,检测输出对象。
根据参考文献中讨论的现有方法,对象检测方法有一些缺点,如图1。每个图像都必须预取大约2000个区域建议,这些建议使用大量存储、I/O资源,图2,单独提取每个区域的建议特征,没有利用DNNS的特征共享能力,造成计算资源的巨大浪费。
图1 CNN框架
图2 BNN体系结构
该架构新颖之处在于检测或识别一组图像中的特定对象,使用诸如CNN、BNN和QNN的三种类型的DNN来检测这些图像,并通过降低计算复杂度、存储空间和减少浪费来保证高精度检测对象,从而确定哪个分类器是最好的。
图3 QNN架构
计算资源和结果使用Zynq FPGA实现。这项工作的动机是基于CNN的实时目标检测,QNN和BNN提出了深度神经网络分类器,并在Zynq FPGA上运行,具有较高的精度和较少的计算时间。DNNs是现实世界中各种任务的最新技术,如系统视觉、自然语言处理、语音识别等。然而,DNN消耗大量的内存,并且使用推理进行训练会减少设备的电池寿命。在初始阶段,对象检测过程分为深度学习时代之前的3个步骤:(I)生成建议(II)提取特征向量和(III)区域分类。目的是在生成建议的过程中,找到可以连接对象的图像位置。这样的位置是称为感兴趣区域(ROI)。本研究的主要特征如下:
- 在本研究中,提出并在Zynq FPGA上实现了基于CNN、QNN和BNN深度神经网络分类器的实时目标检测。
- DNNs是用于现实世界中各种任务最先进的技术,例如,系统视觉、自然语言处理和语音识别。然而,DNN消耗大量的内存,并且使用推理进行训练会减少设备的电池寿命。这很难在具有严格资源限制的移动或嵌入式设备上使用。
- 在这项研究工作中,先前训练的CNN、QNN和BNN模型使用Tensor Flow的API执行实时对象检测。
- 所提出的基于CNN、QNN和BNN深度神经网络分类器的实时目标检测是在Python中设计的,数据集来自Pascal VOC数据集。
- 基于CNN、QNN和BNN深度神经网络分类器的实时目标检测的仿真结果使用性能指标进行评估,如准确度、精确度、召回率、F1-评分、阴性预测值(NPV)、特异性、马修相关性运动系数,是一条下面的曲线。
- 在Zynq FPGA开发团队的Xilinx ISE 14.5设计工具中使用Verilog编程语言验证了所提出的基于CNN、QNN和BNN深度神经网络分类器模型的实时目标检测。
- 针对片寄存器的计数、片LUT的计数、结合的IOB的计数、完全使用的LUT/FF对的计数,最大时钟频率、延迟和Zynq目标系列的总存储器使用来测量器件使用。
- 将目标族Zynq的设备利用率与所提出的分别基于CNN、QNN和BNN深度神经网络分类器的实时目标检测进行性能比较。
本研究的剩余部分是:文献调查定义部分提出了基于CNN、QNN和BNN深度神经网络分类器的实时目标检测方法,并在Zynq FPGA中进行了实现。在部分中展示成果和讨论。在部分中本文的结论。
文献综述
最近的一些文献综述解释了基于DNNS分类器并在FPGA上实现的实时对象检测。
相应的研究人员提出了《反对法》,并在基本阶段转交。此外,查找与可能外部图像上执行的关于竞争者和足球运动图像的图像检测的相关信息。足球运动检测负责整个系统,帧配置是基于硬件的,涉及FPGA,提出了一种新的计算粒子群算法,用于边缘可识别测试、灰度调度、目标获取、目标断言、图像区域开发,并在游戏视频的真实要求下进行了整合。同时,它已经作为一个示范领域建立起来,以检查考虑竞争者的主张、奥运会的主张和体育领导者的判断的研究结构的充分性。足球运动图像识别结果的适用性调查,暴露了解决方案的延续。博纳尔等人引入了多视角图像检测,由自动车辆和自动推进机器人等新应用驱动。该方案利用最优多视角卷积神经网络(MVCNN),其中该过程分散在各种传感器(头部)和相机机身中。在这里,该文件侧重于必须做出的决定,以将MVCNN分配给摄像机的头部,每个摄像机的头部都包含FPGA处理传输中的图像。特别地,AlexNet网络的初始层可以在最近的传感器中进行处理,还能够实现具有数据流计算模型的直接硬件映射(DHM)。所介绍的方法采用了最先进的深度学习优化过程,如参数去除,数据量化。使用AlexNet CNN进行的实验结果表明,引入的无需优化的分区可以适用于低端FPGA上的多视图网络的初始层。
目标检测是计算机视觉中基本的视觉识别问题,近年来得到了广泛的重视。视频对象检测(VOD)的目的是通过在提供的图像上精确定位,并考虑每个对象实例,得到确定的目标类别的对象。全面回顾深度学习视频点播的最新进展。回顾了大量的相关工作,系统地评估了现有的对象检测配置,并将其组织为3个主要组件(I)检测模块,(II)学习方法,(III)应用程序,参考点。最后,使用深度学习讨论了各种即将到来的轻松方向,刺激了未来的VOD研究。
Nguyen等引入了卷积神经网络(CNN),需要多次计算和访问外部存储器。频繁的片外存储器访问是进程缓慢、功耗高的基础。在这里,Tera-Ops流硬件加速器被引入,用于高性能和高能效的实时对象检测,执行CNN You-Only-Look-Once(YOLO)。使用Pascal VOC数据集对YOLO CNN参数进行重新训练和量化,该数据集具有二进制权重以及灵活的最小位。二进制权重允许将整个网络模型存储在FPGA的RAM块中,以积极地减少片外访问。输入图像发送到加速器,输出传输到后续层,减少对动态随机存取存储器(DRAM)的访问,降低了DRAM的功耗。此外,对典型图层进行了完全参数化;扩展网络很简单。使用VC707 FPGA执行的CNN在200MHz的频率下通过批处理获得了每秒1877 Tera操作(TOPS)的性能,芯片功耗为18.29W,与早期的研究相比,显示了最佳的功耗能力。在目标检测精度方面,Pascal VOC 2007数据集的平均精度(MAP)达到64.16%,比同等YOLO网络的MAP总精度低2.63%。
网络量化通过利用在专用嵌入式系统中执行低位算法来有效地处理该问题。在早期的工作中,位宽参数是均匀设置的;此外,这是在更大的演示和持续压缩之间的权衡。在现实中,通常被认为是分层特征提取器的堆叠网络层对整体效率的贡献各不相同。对于训练好的神经网络,随着网络向前传播,不同类型的特征分布逐渐不同。在典型网络架构和参考数据集上的大量实验表明,所建议的流程应该能够实现更好或相当的结果。此外,结果表明,在更好地保留原始图像信息的基础上,精度较高的较低层可以明显提高网络的效率。
高度存储和计算节省二进制神经网络在资源有限策略中实现深层模式提供了系统指导。虽然二值神经网络会导致数据丢失,但其不连续性给深度网络优化带来了困难。特征为直接沿着优化的解执行二值化的本地解,诸如最小化量化故障、升级网络损耗过程、减小梯度误差的过程被
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[589482],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。