基于深度学习的图像识别与分类系统外文翻译资料

 2022-12-29 01:12

本科生毕业设计(论文)外文资料译文

( 2019届)

论文题目

基于深度学习的图像识别与分类系统

外文资料译文规范说明

一、译文文本要求

1.外文译文不少于3000汉字;

2.外文译文本文格式参照论文正文规范(标题、字体、字号、图表、原文信息等);

3.外文原文资料信息列文末,对应于论文正文的参考文献部分,标题用“外文原文资料信息”,内容包括:

1)外文原文作者;

2)书名或论文题目;

3)外文原文来源:

□出版社或刊物名称、出版时间或刊号、译文部分所在页码

□网页地址

二、外文原文资料(电子文本或数字化后的图片):

1.外文原文不少于10000印刷字符(图表等除外);

2.外文原文若是纸质的请数字化(图片)后粘贴于译文后的原文资料处,但装订时请用纸质原文复印件附于译文后。

指导教师意见:

指导教师签名: 年 月 日

一、外文资料译文:

关于格鲁吉亚手写字符识别

摘要:本文论述了格鲁吉亚手写文本识别问题。在进行研究的活动中,开发了一种使用自归一化卷积神经网络(CNN)识别手写格鲁吉亚文的框架。为了训练CNN模型,我们创建了一个包含超过20万个字符样本的广泛数据集。这个框架已经作为web服务部署,也以Windows、Linux和iOS应用程序的形式部署。

关键词:人工智能,CNN,SNN,OCR,手写字符识别

1. 引言

数据处理是日常生活中不可分割的一部分,是当代研究的热点问题之一。对于许多语言,特别是格鲁吉亚语,手写文本的计算处理问题仍然是一个未解决的任务。大量的文字仅以手写形式存在,为了保存和转换成可编辑的形式,需要大量的人力手工输入这些文本。这个问题在办公室工作场所尤其重要,因为手动生成部分或全部手写文档的可搜索和可编辑备份可能会耗费时间和资源。因此,创建高精度的手写文本OCR(光学字符识别)几十年来一直是一个巨大的挑战。虽然致力于识别拉丁字符的OCR系统已经取得了重大进展,但许多语言的字符集,包括格鲁吉亚语,还没有可接受质量的识别模型或数据集。在当今相互联系的世界中,问题往往需要全球性和长期性的解决办法,处理非拉丁文字有利于技术发展和文化进步。格鲁吉亚手写脚本的草书性质提供了一种独特的技术挑战,这种系统的存在可以简化对大量格鲁吉亚语脚本的访问。

由于大数据集的可用性和英文手写语言相对较少的性质,手写OCR领域的大部分进展都是针对英文字符进行的,通过高质量的自动纠错系统将错误最小化,模型的单字符准确率可达95%以上。

在此之前,还没有为格鲁吉亚文字创建大型手写字符集。在我们的研究过程中,我们通过扫描和分割超过200位作者的手写文本,并部署了一个在线手写样本收集器,收集了20万个格鲁吉亚文字样本。

在最初的尝试中,我们在数据集上训练了几个测试模型,包括VGG、ResNet和Inception。然而,由于格鲁吉亚文字书写形式的高度复杂性和多样性,我们以Klambauer等人提出的基于自规格化结构的新架构实现了最高性能。

2. 相关工作

针对不同类型的OCR任务,存在不同类型的字符识别技术。OCR最常见的形式是离线处理对文字和文本静态图像的分析;另一种形式是所谓的在线方法,通过捕捉输入设备“飞行”的方向和动量等手写动作来收集更多关于手写过程的信息。这种方法虽然有效且资源密集程度低,但只能在有上述信息的情况下才能发挥作用,例如在数字设备上使用鼠标或手写笔写字。卷积神经网络允许对静态图像中的字符和文本进行有效的离线识别。除了基于CNN的架构,基于RNN的架构也被用于在基于cursive的脚本中促进OCR,如Ahmed所述,RNN架构通过增加网络决策过程中关于字符整体序列的信息来促进字符预测。

3. 方式和方法

我们的目标是开发一种离线手写识别系统,能够识别格鲁吉亚手写文本并将其转换为数字文本。为此,我们使用了卷积神经网络架构。

3.1人工神经网络

人工神经网络,也被称为多层感知器,是一个由许多简单的、高度互联的处理元素组成的计算系统,通过它们对外部输入的动态响应来处理信息。人工神经网络(ANN)是由模拟有机大脑神经元的节点组成的。

神经网络由若干层组成,这些层由所谓的节点或神经元组成。ANN的层是输入层、一个或多个隐藏层和输出层。输入层的节点与第一个隐藏层的节点链接。第一个隐藏层中的每个节点表示来自输入层的加权值的激活和。输入层和第一个隐藏层节点的每个连接都有一个相关的权重,该权重决定输入对目标节点的影响程度。

第一个隐藏层充当后续层的输入层,以此类推,直到确定输出层的值。为了对模型进行准确的预测,需要通过训练模型对数据进行调整,使模型的输入设置为数据集的一个条目时,模型的输出与条目的关联标签匹配。假设权值设置为最优值,则通过将输入数据的值通过网络向前传播并确定输出层节点的值来进行预测。

为了使神经网络具有学习非线性函数的能力,对每个节点的值进行非线性“激活”,即其值通过具有有利于网络训练过程性质的非线性函数传递。此外,对于网络的每一层,都可以学习到一个称为偏差的单一共享权值,该权重与下一层中每个节点的预激活值相加。

图1 ANN中的单节点:将向量X(输入)和W(权重)的成员乘和与前一层的偏差相加,通过激活函数f传递结果,激活函数f的输出决定了节点的值。

3.2. 卷积神经网络

卷积神经网络(tional neural network, CNN)是一种利用滑动窗口权值结构从视觉信息中提取特征的人工神经网络。2012年,CNNs在MNIST数据集数字识别方面的表现优异,错误率为0.23%。

CNNs通过使用额外的层结构来代替隐藏层来扩展传统的ANN架构。卷积层使用学习内核生成视觉特性,从“滑动”内核输入,将每个位置的输入与内核和输入的点积部分放置在当前位置(作为当前位置的“源点”部分),结果关联形成输入的特征映射。在大多数情况下,一个卷积层包含多个内核,从而产生一个特征映射为每个层的内核,层的输出表示为每个位置的输入向量,其中第m个元素的向量n位置的值是第n位置特性通过卷积层特征图生成的m个内核。

图2 从数学上讲,卷积层在(i,j)位置上的二维输入和一个3times;3的核的输出可以表示为网络中每一层的偏差,该权重与下一层中每个节点的预激活值相加。

其中I(x,y)表示输入在(x,y)处的值,K(x,y)是核内(x,y)处的值。与ANNs的隐藏层一样,卷积层生成特征图通常是通过一个激活函数。在我们的模型中,我们使用Klambauer等人引入的SeLU激活函数。

通常,卷积层生成的特征图会通过所谓的最大池化或者子采样层来降低它们的维数。最大池化或子采样层会将特征图分割成给定大小的块,并且只输出每个块的最大值。输入经过多个卷积层和最大池化层之后,最常见的是“平坦化”(张量的元素放在一个向量中),然后经过完全连接的隐藏层,最后是输出层。

3.3. 数据集

数据集的创建或选择是机器学习中的关键步骤。我们发现公开的信件数据集缺乏数据和存在不平衡的数据。关于上述问题,格鲁吉亚手写文字OCR系统的实施需要解决以下任务:

bull;格鲁吉亚光学特征数据集的开发

bull;光学信息的分割和预处理

bull;神经网络的发展及其训练

由于缺乏标有格鲁吉亚文字的数据集,我们不得不从头开发自己的系统来收集数据并创建数据集。在研究的框架中,适当的Web和Windows应用程序分别在Python和c#中实现,用于从志愿者那里快速有效地收集所需的数据。

我们还手工收集、扫描和预处理了超过12万个格鲁吉亚手写字符的图像。我们一共获取了20多万个字符样本,用于后期的识别模型训练。

选择适合我们问题的模型是一项具有挑战性的任务。我们测试了几个经典架构,如VGG模型、Inception、ResNet和一个更近的SNN 架构。对训练过的架构的测试是在数据集的交叉验证部分上执行的,专门为测试留出,并且允许一些志愿者在真实世界中测试应用程序。最有效的结果之一是使用ResNet50获得的,它接受64x64像素的图像,输出层由33个节点组成,对应于格鲁吉亚字母表中字符的数值。

为了使我们在所有领先的CNN网络上训练的数据集达到尽可能好的准确性,我们对它们进行了修改,以供我们使用,并创建了一个新的基于自规范化的CNN模型。我们已经培训了修改后的VGG16, inception,格鲁吉亚字符识别模型。VGG16是一种高深度模型,它使用较小的内核通过层来保持权重。经常被认为是CNN。2015年开发的GoogLeNet为基本序列模型增加了并行结构,Patel等。

图3 基于VGG的SeLU激活卷积神经网络;我们的体系结构

为了提高精确度,我们使用了自归一化神经网络(SNN)的最新进展,这些进展在稠密层上显示出良好的前景。通过反复试验、参数修改和预处理调整,我们开发了新的SNN模型。该模型以VGG的结构为基础,改变了卷积和最大池的排列,但最重要的是利用了密集层的SeLU激活、alpha丢失和神经元计数的增加。

该模型证明了处理时间和精度之间的最佳折衷。提供的复杂性和可调参数大小小于VGG,同时提供 3%的性能测试数据集。

4.结果

基于不同CNN架构的单字训练精度如表1所示:

模型

测试精确度

Inception(Imagenet 预训练)

63%

VGG16(Cifar 100 预训练)

54%

CNN英文数据集

99.1%

VGG16(汉字特征)

74%

VGG16

89%

ResNet

95%

SNN

94%

表1 精确度

在对VGG和GoogleNet模型进行训练后,在训练集和测试集之间的交叉验证中,我们得到了最大的准确率(94.3%)。这一结果是通过在ImageNet上进行训练得到的卷积层采用的权值来实现的数据集。

在对每个模型进行12小时的训练后,利用ImageNet训练卷积层,VGG的准确率达到78%。这主要是由于样本量较小,导致模型过度拟合,导致测试图像集的准确率泛化较低。

同时,GoogleNet在ImageNet训练模型上的准确率为93.8%,在ground up模型上准确率为23%。最后一个是由于GoogleNet的深度,使用GTX Titan X系统进行地面计算的典型时间约为1周,而手写识别系统的准确率为94.3%。

SNN要求训练时间在6小时以下,准确率达到94%以上,训练和预测时间最少。

SNN模型也在英语语言数据集上进行了测试,实现状态精度超过99%。

图4 混淆矩阵

通过生成混淆矩阵,计算每个字符的查全率和查准率来验证结果。

图4描述了每个字符类的分类器的混淆矩阵,图5提供了测试集的准确率和图6的召回率结果。

图5 准确率

图6 召回率

5.总结

本文提出了一种基于卷积神经网络的格鲁吉亚手写字符识别方法。在对不同的CNN架构进行测试时,自规格化神经网络的准确率达到94%以上,训练时间最短,预测时间最短,表现出了最佳的性能。在研究过程中,针对web (python)、Desktop (c#)和ios(swift)选择了合适的框架,为手写文本提供了高精度的识别。这样的软件解决方案可以在旧手写文本的保存时作为一个工具,同时提高效率和格鲁吉亚手写文本的可访问

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[276066],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。