在线和离线手写汉字识别:综合研究和新基准外文翻译资料

 2022-12-11 08:12

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


在线和离线手写汉字识别:综合研究和新基准

摘要:

最近基于深度学习的手写汉字特征识别的方法已经取得了最顶尖的表现,这种方法是通过直接从原始数据学习有识别度的特征。然而,我们相信长期且充分被研究的特定领域知识仍然有助于手写汉字识别的性能。通过整合传统统一规范化的,按特定方向分割的特征直接映射到深度卷积神经网络,我们便可在ICDAR-2013竞争数据库中获得新的最高精度的在线和离线汉字识别。有了这个新的框架,我们可以消除增长的数据和全体数据的需求,这个框架可以广泛应用于其他系统中来获得最好的结果。这使得我们的框架不仅在训练或者测试中都是高效和有效的。此外,尽管directMap convNet可以获得最好的结果和超越人类水平的性能,我们表明作者改编版在这种情况下仍然有效。我们提成了一个新的适应层,来减少在一个特定的源层中训练和测试数据的不匹配。适应过程可以高效地并且有效地实现一种无监督的方式。通过在前期训练的卷积神经网络中添加相应的层次,这个层次可以适应特定作者的新的书写风格,并且识别精度可以持续地,显著地进一步改进。本文概述了并比较最近基于深度学习的汉字识别的方法,而且给在线和离线手写汉字识别设置了新的基准。

1.介绍:

手写汉字识别为了处理很多挑战已经研究了50多年,而这些挑战包括大量的特征种类,相似特征之间易混淆的问题,还有个人不同的书写风格。根据输入数据的类型,手写识别可以分为在线和离线。在线手写汉字识别中,笔尖运动的轨迹被记录下来,然后分析这些轨迹并确定表达的语言信息,但是在离线手写汉字识别中,特征图像一般用灰度或者二进制表示,这些图像将会被分析并且被分类到不同的种类中。离线手写汉字识别有许多的应用,比如邮件排序,银行支票阅读,书和手写笔记转录,同时在线手写汉字识别已经广泛地用于用笔输出的设备,个人数字助理,智能手机,计算机辅助教育等等。而且,手写汉字识别也是手写文本识别(在线和离线)的一个重要不可或缺的部分,这个部分看重分割同时也看重识别。字符识别的高精度对于手写文本/字符串识别的成功是至关重要的。

为了促进手写汉字识别的学术研究和基准,模式识别国家重点实验室(NLPR),中国科学院自动化研究所(CASIA),组织了三个竞赛:CCPR-2010 , ICDAR-2011 , and ICDAR-2013 。竞赛的结果随着时间的推移有了改善,并且涉及许多不同的识别方法。有一种势不可当的趋势:基于深度学习的方法逐渐在竞争中占主要优势。从一开始,在CCPR-2010竞赛中所有提交的系统都是传统的方法。在IDCAR-2011竞赛中,来自瑞士的IDSIA团队提交了他们基于卷积神经网络(convNet)的系统并且赢得了离线手写汉字识别的第一名。这是第一次在手写汉字识别中使用卷积神经网络。而在之后的ICDAR-2013竞赛中,在线和离线手写汉字识别的赢家都使用了卷积神经网络。来自富士通研发中心的团队使用了4层卷积神经网络共同作用的方式赢得了离线识别的比赛,而来自华威大学的团队用稀疏卷积神经网络赢得了在线识别的比赛。

深度学习的方法可以从原始数据直接学习有区别的特征,因此可以为很多模式识别问题提供端到端的解决方法。然而,已经充分研究的特定领域的知识仍然有助于进一步改善手写汉字识别的性能。书写汉字识别领域中最重要的知识包括字符形状正常化和分解趋势特征图。字符识别团体提成了许多有用的形状规范化方法,如非线性归一化,双力矩归一化,伪二维规范化和线密度投影插值。形状规范化可以减少在类内的变化,从而提高识别精度。另一个重要的领域知识是分割趋势特征图。通过分割梯度(用于离线图像)或局部的笔画(用于在线行程轨迹)成不同的方向(从0°到360°),我们可以获得多个特征图,每个特征图代表一个原始梯度/笔画的方向。这是一个强烈的先验知识:汉字是在写作过程中定向的笔画组成的。在卷积神经网络到来前把汉字描述成定向型的特点在很长一段时间已经是最先进的方法了。

为了提高手写汉字识别的精度,而不是从原始数据中训练神经网络,我们通过归一化组合和分解趋势特征图的方式描绘在线和离线手写字符(直接视图),它可被视为一个d*n*n的稀疏张量(d是量子化的方向的数量而n是滴入的大小)。直接映射包含形状规范化和方向分割这些特定领域的知识,因此直接映射是手写汉字识别一种强大的表示法。此外,我们受到最近卷积神经网络应用于图像分类的成功实例的启发,为手写汉字识别开发了一个11层的卷积神经网络。通过将直接映射法和卷积神经网络结合,我们才能够在ICDAR-2013数据库关于在线和离线手写汉字识别的竞赛中获得新的基准。在获得在线和离线手写汉字识别最佳性能的方法上,以前的作品通常采用不同的方法。然而,随着直接映射法和卷积神经网络的出现,我们可以用同样的框架在在线和离线手写汉字识别中获得最顶尖的性能。由于嵌入式领域特定的知识,我们也可以消除对数据扩充和整体模型的需求,而这正是其他系统能达到最佳性能的关键。这使得我们的模型在训练和测试流程中是高效的并且有效的。

个人之间书法风格的大变化是手写汉字识别的另一个挑战。作者适应版广泛用于处理这个挑战,通过逐渐减少作者独立系统和特定个体之间的差异。尽管基于深度学习的办法已经为手写汉字识别设置了一个高记录,这个高记录已经超过人类水平的性能,我们认为在这种情况下作者适应版仍然有效。我们从早期作品风格传输映射中得到了启发,用一种无监督的方式,在卷积神经网络添加了一个特别的适应层来匹配和消除训练和测试数据中的变化分布。由于规范化参与学习的过程,即使只有少量的样品可以获得,适应性可以保证性能的改进。在60多名作家在线与离线手写汉字识别的实验中,随着对卷积神经网络的适应,我们观察到持续的并且明显的准确精度的增加。

手写识别社区报告了很多有用的重要的成就(从1980年到2008年)在之前的论文的概述中。如今,在处理手写相关的问题时,基于深度学习的方法成为新的尖端技术。本文可以看作是最近在应用深度学习方法识别手写汉字的任务进展(特别是通过三个比赛)的概述。这些报告出来的结果和比较可以被用来作为未来在线和离线手写汉字识别研究领域的新基准。

本文的其余部分组织如下。第二节回顾相关工作。第三节描述了生成在线和离线直接映射的过程。第四节显示的是卷积神经网络传统方法的演变。第五节介绍了在我们系统中卷积神经网络的应用的细节。第六节解释了如何给作者适应版在卷积神经网络中添加一个适应层。第七节报告实验结果,第八节是结束语。

2.相关的工作

随着在不同领域深度学习成功的影响下,手写汉字识别的解决方案已经从传统方式变为采用卷积神经网络的方式。第一个被报导使用卷积神经网络实现离线手写汉字识别的是多列深度神经网络(MCDNN)。之后,稀疏卷积神经网络在ICDAR-2013的在线手写汉字识别竞赛中获得了最佳的表现。交替训练放松卷积神经网络在离线手写汉字识别中被提出。最近,离线手写汉字识别的最高精度是通过整合多种策略,如本地和全球的失真,综合管理训练和多模型投票获得的。卷积神经网络也被成功的应用于手写韩语识别这和手写汉字识别是类似的。虽然这些方法在大的边际上优于传统方法,但是他们基于端到端学习从而忽略了在手写汉字识别上长期并且有益的特定领域的知识。

最近,在离线手写汉字识别中,结合传统的特征提取方法正如伽柏和梯度特征图谱用GoogleNet(深度卷积神经网络模型)来获得很高的精度。此外,对于在线手写汉字识别,它还用神经卷积神经网络的各种领域的知识包括变形,虚构行程映射,路径信号映射和方向映射来获得最好的性能。这些结果清楚的确定运用领域知识来进一步提高性能的优点。应该注意的是,在大多图像分类任务的深度学习应用中,为了增加训练数据,扭曲图像的产生也是一种领域知识的利用。然而,在我们心中,最重要的特定领域知识应该是形状规范化和方向分割。与我们之前提出的直接映射法 卷积神经网络,我们可以在没有增加数据或者整个模型的情况下,从在线和离线手写汉字识别中获得新的基准,而这个情况对于获得最好结果是至关重要的。

基于深度学习的方法也发现了其他手写相关问题的应用,如作家识别,混合模型,信息分析,手写法定量识别和文本识别。卷积神经网络还可以与用于在线手写识别的隐马尔可夫模型(HMM)相结合。近来,在没有明确的字符分割的情况下,具有长期记忆(LSTM)的复发神经网络(RNN)已经成功地用于手写中文文本识别。RNN和卷积神经网络的组合也被用于场景文本阅读。显然,越来越多的角色识别相关问题将会引起人们对于高性能解决方案的深入学习的注意。

图片1。在线和离线手写汉字特征的直接对比。

作家适应已广泛应用于个性化笔迹识别系统。我们以前的工作提出了一种用于适应不同分类器的样式转移映射(STM)框架,这个框架已经进一步研究了。以前的作家适应主要集中在传统的分类器,如最近的原型分类器和修正的二次判别函数。然而,现在对运用深度卷积神经网络的作者适应性尚不清楚。深度网络适应的传统方法是重新划分一个将现有网络之一的激活作为输入特征的分类层(如De CAF)。当目标域的标签数据不可用时,子空间对齐(嵌入)被广泛用于最小化域移位。在这项工作中,通过将STM视为新的特殊层,我们可以以无监督的方式将卷积神经网络与特定作家的风格进行匹配,只需少量的作家特定数据。所提出的适应层是神经网络的简单和基本组件,因此可以容易地与不同的网络架构集成。

3. 方向分割特征图

形状规范化和方向分割法是手写汉字识别中强大的领域知识。形状规范化可以看作是原始和标准化字符之间的连续2D空间中的坐标映射。因此,方向分割法可以在原始(归一化协作)或归一化(归一化)字符上实现。归一化协调方法将原始角色的方向元素映射到方向图,而不产生归一化字符,从而可以减轻由形状归一化引起的笔画方向失真的影响,并提供更高的识别精度。我们使用归一化协作的方法来生成在线和离线手写汉字识别的直接映射。

3.1离线直接映射

离线手写数字识别数据集提供灰度图像,背景像素标记为255.为了快速计算,我们先倒转灰度等级,将背景设为0,前景为[1,255]。之后,前景灰度级被非线性归一化为克服不同图像之间灰度变化的规定范围。对于离线字符的形状归一化,我们选择线密度投影插值(LDPI)方法由于其优越的性能。对于方向分割,我们首先通过Sobel算子从原始图像计算梯度,然后通过平行四边形规则将梯度方向分解为两个相邻的标准链码方向。注意,在该处理中,不生成规范化字符图像,而是将原始图像的梯度元素直接映射到包含像素坐标变换的标准图像尺寸的定向图。

3.2在线直接映射

在线手写汉字识别数据集提供笔画坐标序列。我们还使用用于在线手写字符的规范化协作方法,即,从包含坐标变换的原始图案中提取特征,而不生成归一化图案。用于在线手写汉字识别的形状归一化方法是伪2D双向归一化(P2DBMN),因为LDPI不适用于在线轨迹。 对于方向分解,将局部行程方向(由两个相邻点形成的线段)分解为8个方向,然后生成每个方向的特征图。 假想笔画(笔式升降机或称为脱扣)也以0.5的重量加上以增强表示。

3.3分析

为了构建简洁的表示,我们将特征映射的大小设置为32,因此生成的直接映射是8times;32times;32张量。图1显示了在线和离线直接映射的例子。第一列是原始字符,而索引为0-7的列是八个方向映射。为了更好地说明,我们还显示了八个方向映射的平均映射。这些图表明平均映射中的形状与原始特征相比是规范化的。对于离线字符,梯度被分解,因此平均图给出了原始图像的轮廓信息。相反,对于在线字符,局部的笔画被分解,因此可以通过平均映射很好地重建输入字符,从中我们也可以发现虚拟笔画已被考虑在内。由于梯度垂直于局部笔画,在线和离线直接映射是不同的,尽管它们采用与图1右侧相同的方向编码。

直接映射是手写汉字识别的强大表征,它利用强大的先前知识,在写入过程中通过基本的定向笔划产生汉字。如图1所示,直接映射是非常稀疏的。实际上,在我们的实验数据库中,直接映射中元素的92.41%(在线)和79.01%(离线)是零。通过这种稀疏性,我们可以有效地存储和重用提取的直接映射。由于稀疏性,使用尺寸小于原始图像(大于64 * 64)的映射不会丢失形状信息。

4.从传统的手写汉字识别到卷积神经网络

获得直接映射后,传统的手写汉字识别方法在每张映射上采用抽样策略。如图2所示,在每个采样位置,使用高斯模糊来减小笔画位置变化的影响。通常,每个映射定期采样8 * 8个点,得到维度512(八个方向)的特征向量,这被广泛地称为定向特征。之后,将y = x^0.5的Box-Cox变换应用于每个特征维度以增加数据的高斯度。然后使用诸如主成分分析(PCA),Fisher判别分析(FDA)和鉴别特征提取(DFE)的线性维数降低方法将特征减少为低维子空间。在这个子空间中,最近的原型分类器(NPC),修改的二次判别函数(MQDF)和鉴别学习二次判别函数(DLQDF)被广泛地用作最终的分类器(参见关于MQDF相关方法的概述)。这种框架是过去几十年来手写汉字识别的基准。

图2。运用直接映射的手写汉字识别的传统框架

图三。卷积神经网络的体系结构应用于在线和离线手写汉字识别

尽管文献中没有明确说明,如图2所示,传统的手写汉字识别架构与简化的卷积神经网络密切相关。高斯模糊可以被看作是除了从数据中学习之外预先定义的卷积掩码。Box-Cox变换是非线性激活,尽管与神经网络中广泛使用的激活不同。之后,有一个完全连接的层和一个分类层。因此,我们应该说,传统的手写汉字识别方法也遵循深层神经网络的设计理念,尽管图2中的结构非常浅,而不是采用标准的端对端反向传播训练方式。有鉴于此,将直接映射与深度卷积神经网络集成起来,寻找新的基准是直接和必要的。

5.卷积神经网络

最近,有实验显示深度对于

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[27309],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。