为离线手写识别网络使用的深层信念的串联隐马尔可夫模型
摘要:在文档分析和模式识别领域,无限制的手写体识别是一项艰巨的任务。近年来,为了充分利用隐藏在文档图像中的监管信息,人们做出了许多努力,以混合或串联方式将多层感知器(MLP)集成到隐藏的马尔可夫模型(HMM)中。但是,由于MLP的学习能力较弱,因此学习的功能不一定适合后续的识别任务。在本文中,我们提出了一种基于深度架构的串联方法,用于无约束的手写识别。在提出的模型中,采用深度信念网络来学习顺序数据的紧凑表示,而将HMM应用于(子)单词识别。我们在两个分别基于拉丁和阿拉伯语言的RIMES和IFN / ENIT公开数据集以及我们自己收集的一个名为Devanagari(印度文字)的数据集上评估了该模型。大量实验证明了所提出模型的优势,尤其是在MLP-HMM串联方法上。
关键词:手写识别隐藏的马尔可夫模型;深度学习;深入的信仰网络;一前一后
方法
1引言
手写文字的自动识别是一项具有挑战性的任务,因为其写作风格和草书性质差异很大(Senior和Robin-son,1998; El-Yacoubi等,1999; Vinciarelli,2002; Bunke,2003; Fujisawa,2008)。 。 在过去的几十年中,诸如隐马尔可夫模型(HMM)之类的随机方法已广泛应用于执行文本识别任务(Marti和Bunke,2001; Vin-ciarelli等,2004; Zimmermann等,2006)。 ; Kessen-tini等,2008; Mohamad等,2009)。 HMM对建模不受约束的文本字符串有效。 这主要是由于它们具有处理非线性失真和不完整信息的能力。 HMM执行联合分割和识别,这对于避免将草书单词分割为字符/子单词很有用(Vinciarelli等,2004)。 这些模型可以处理从文本图像获得的具有可变长度的观察序列。
在一般的基于HMM的方法中,使用一阶马尔可夫链来近似隐藏状态序列,其中,在时间t处的每个状态St仅取决于在时间t minus; 1处的状态St-1。 假设不同时间步长的观测是有条件独立的(Rabiner,1989)。 实际上,基于HMM的系统有两种策略:整体策略或分析策略。 整体过程将单词图像视为一个整体,并且不会将单词划分为字符或子单词单元。 相反,分析方法通过字符/子词HMM的串联来对词进行建模。 这样的方法对于大词汇量是方便的,因为可以通过字符串联来建模未知单词。
在文献中,HMM的功能采用滑动窗口方法:固定宽度的窗口根据书写样式从左向右或从右向左逐列移动(阿拉伯语,文本从右向左书写) 。在窗口的每个位置,提取特征向量(Marti和Bunke,2001; Vinciarelli等,2004; Mohamad等,2009),并以此方式对以这种方式获得的特征向量序列进行建模。 HMM。基于HMM的识别性能在很大程度上取决于功能的区分能力。因此,特征提取长期以来一直是研究的重点。在主要的HMM范例中,观察似然是根据高斯混合模型(GMM)计算的。接下来,维特比解码会搜索与给定HMM最匹配的观测的子序列。 GMM-HMM框架提供了一个生成模型,其中训练和解码在最大似然(ML)准则下进行。一些方法在训练中引入了判别技术:基于最大互信息(MMI)和最小电话错误(MPE)的模型参数估计(Dreuw等,2009; 2011b)。最近,已显示出递归神经网络(RNN)在手写识别方面比HMM更好(Graves and Schmidhuber,2008; Graves et al。,2009)。这是因为RNN是判别模型,而标准HMM是生成模型。
许多研究人员已尝试将HMM与其他模型结合以构建混合体系结构,以提高GMM-HMM方法的性能。 在功能级别使用的一种常见方法是使用串联方法(Schenk和Rigoll,2006年),其中通过多层感知器(MLP)进行区分性训练。 MLP的输出(可以视为字符/状态后验概率)可以在帧级别组合,也可以附加到特征向量上。 串联方法的强大之处在于非线性映射,它能够最大化输出空间中类之间的可分离性。
通常,混合模型使用MLP代替GMM作为HMM的状态后验估计器,而串联模型则将GMM和MLP都作为特征。尽管基于MLP-HMM的方法已在许多系统中成功使用(Espana-Boquera等,2011),但是基于梯度的训练很容易陷入明显的局部最小值或平稳状态(从随机初始化开始)。随着在MLP中添加更多的隐藏层,很难获得良好的概括。最近,有关深度信念网络(DBN)训练策略的新研究(Hinton等人,2006年)使许多机器学习和模式识别任务的性能得以提高。事实证明,这种深度学习方法在许多应用中都是有效的,包括隔离的手写字符识别(Hinton,2002; Thomas等,2015),语音识别(Dahl等,2011; Mohamed等,2012)。 ; Senior等人,2014)和机器音译(Deselaers等人,2009)。深度网络学习非线性特征检测器的层次结构,该结构可以捕获数据中的复杂统计模式。这些进步激励我们开发用于顺序文本识别的深度学习技术。
DBN使用贪婪的逐层预训练算法来初始化网络权重。 由于这一优势,DBN表现出比常规MLP显着的性能提升(Hinton等,2006)。 但是,到目前为止,还没有使用基于DBN的HMM系统进行单词识别任务的工作。 在这项研究中,我们采用DBN从不受约束的手写文本图像中提取判别特征,并以串联HMM方法使用这些特征。 我们证明,结合DBN和HMM串联方法可以进一步改善基于HMM的现有文本识别框架。 这项研究的主要贡献如下:(1)探索DBN-HMM串联模型; (2)DBN在无约束文本识别问题中的应用; (3)我们对HMM和MLP-HMM串联系统的结果进行比较分析。
2相关工作
如前所述,可以改进优化GMM-HMM系统的生成训练,如果对培训进行了区分性调整(Bertolami和Bunke,2008年)。 另一方面,由于它们的区分性,人工神经网络(ANN)已被广泛应用于将字符分类为孤立的或连续的手写文字识别器的一部分(Marinai等,2005)。 因此,作为GMM-HMM的替代范式的ANN和HMM的组合在许多应用中已变得越来越流行(Schenk和Rigoll,2006; Espana-Boquera等,2011)。 在此类系统中,基于神经网络(NN)的后验概率可用于直接计算HMM观测概率(例如,混合方法(Bourlard和Morgan,1994; Renals等,1994; Kozielski等,2013))或 用于特征提取(例如,tan-dem方法(Schenk和Rigoll,2006))。 NN具有固有的优势,可以优化状态概率。
最近,提出了一种混合的ANN-HMM系统,用于利用MLP模型和上下文敏感度进行文本识别(Espana-Boquera等,2011)。 混合MLP-HMM模型用于建模字素,而单个NN用于估计发射概率。 由NN计算的后验概率估计值除以先验状态概率,从而得出了按比例缩放的似然度,该似然度被用作HMM中的发射概率。提出了串联建模(Hermansky等人,2000; Schenk和Rigoll,2006),以将ANN的判别性参数估计与HMM的序列建模能力相结合。 组合特征的积极效果是,MLP将非线性特征转换为明确识别字符/状态的空间。 转换后的功能可改善GMM的辨别力,该功能描述了与每个HMM状态相关的输出空间。 串联方法的优点是它对噪声的鲁棒性(Sharma等,2000)。 串联和混合方法之间的主要区别是后者使用MLP的输出来近似HMM状态的概率密度函数(PDF)。 相反,串联方法使用标准的GMM。
在深度学习技术发展的基础上,本研究提出了一种基于深度网络的串联模型,用于无约束的手写文本识别。 DBN用于学习紧凑的数据表示形式,并与后续的HMM结合。尽管DBN是作为一种强大的算法引入的,并且已经在许多应用中进行了探索,例如手写十位数字识别和语音识别,但是很少有结合DBN和HMM的方法。特别是,我们注意到在Mohamed等人中。 (2009年),DBN被用来对子电话进行分类,然后与HMM Bi-gram语言模型结合用于语音识别。虽然在Mohamed等人的模型中。 (2009年)与我们的模型共享相同的构件,即DBN和HMM,在算法细节和应用目标方面与我们的工作截然不同。对于具体性,Mohamed等人的模型。 (2009年)使用DBN进行子电话分类,而我们的模型使用DBN进行数据表示学习。 Mohamed等人的模型。 (2009年)被应用于语音识别问题,而我们的模型用于手写文本识别任务。据我们所知,这项工作是首次将DBN和HMM的串联模型应用于手写单词识别任务。
3促进模型
在本节中,我们介绍如何在串联框架中使用DBN,并分析DBN的深层体系结构如何帮助手写文本识别。 产生串联特征的过程如图1所示。从单词图像中提取的列式特征向量被馈送到DBN中。 与其像混合ANN-HMM中那样将输出解释为字符类后代,不如将它们视为HMM中的观察值。 后部特征在处理之前使用降维进行转换。 最后,将这些DBN功能附加到具有GMM观测分布的HMM系统中的原始功能。
3.1深入信仰网络的培训
DBN是Hinton等人引入的无监督生成模型。 (2006)。 在DBN中,贪婪的逐层训练用于从复杂的数据结构中有效地学习深度概率模型。 学习算法首先以不受监督的方式分别初始化各层的权重,然后微调整个网络
图1 DBN-HMM串联系统框图
使用标记的数据。 DBN是由其主要构造块(称为受限玻尔兹曼机器(RBM))的堆栈创建的。详细的技术报告可以在Hinton等人的文章中找到。 (2006)。为了具体起见,下面我们将对RBM和DBN进行简要说明。
RBM是对数线性马尔可夫随机场的一种特殊形式,它具有两层体系结构,其中可见随机单元v与隐藏随机单元h连接。通常,所有可见单元都连接到所有隐藏单元,并且没有可见-可见和隐藏-隐藏连接。在最简单的RBM形式中,隐藏单元和可见单元都是二进制的和随机的。潜在表示的每一层都是通过训练RBM来学习的,该模型使用对比散度(CD)对下一个较低层的数据分布进行建模(Hinton,2002)。给定模型参数theta;,连接的权重和各个单元的偏差在可见单元v和隐藏单元h上形成联合概率分布P(v,h |theta;)。对于二进制RBM,此分布是根据以下能量函数计算的:
其中theta;= {w,b,a}是模型参数,wij是可见单元i和隐藏单元j之间的权重,bi和aj分别是可见单元i和隐藏单元j的偏差项,而V和H是数字 分别显示和隐藏单位。 边际概率计算如下:
其中Z(theta;)被称为分区函数,由
由于RBM中没有隐藏或可见-可见的连接,因此所有可见单位(隐藏给定隐藏的单位)(可见的单位),这些单位将变得独立。 条件分布P(v | h)和P(h | v)是阶乘,可以有效地得出以下公式:
其中sigma;(x)=(1 ex)-1是S型函数。
训练了RBM后,RBM可以重新呈现数据。 对于每个数据向量v,请使用等式(4)计算隐藏单元激活概率h的向量。 这些隐藏的激活概率用作新RBM的训练数据。 因此,每组RBM权重都可用于从前一层的输出中提取特征。 在完成RBM的训练后,我们用训练后的RBM的隐藏层初始化神经网络隐藏层的权重。 经过预训练后,我们添加了一个随机初始化的softmax输出层,并使用反向传播来有区别地微调网络中的所有权重。
3.2 DBN-HMM串联方法
在这项研究中,我们提出了DBN-HMM tan-dem系统,如图1所示。DBN-HMM将DBN的判别性参数估计与HMM的序列建模能力结合在一起。 为此,将DBN集成到HMM框架中以形成DBN-HMM串联系统。 在HMM系统中,假设给出HMMlambda;,则观察序列的概率P(X |lambda;)为X = {x1,x2,...,xT}。 可以通过将所有可能的状态集合的概率相加来计算该概率。
通过使用HMM的属性,观察框架仅取决于生成状态它以及我们的单词识别方法中使用的HMM是一阶马尔可夫链。 因此(6)可以得出如下:
等式 (7)可以重新表达如下:
其中P(s1k)是状态s1k的初始概率,P(stk | stk-1)从状态stk-1到状态stk的转变概率,P(xt | stk)给定特征向量xt的发射概率(后验) 状态STK。
与给定任意状态si的特征矢量xt的可能性相反,DBN产生状态后验概率P(si | xt)。训练DBN要求在训练数据中的时间步t处将每个观察结果与其转录的字符标签对齐。但是,类别(例如HMM状态)标签通常不可用。为了获得该标记,在强制对齐模式下将先前训练的GMM-HMM应用于训练数据(Espana-Boquera等,2011)。图2示出了示意性草图。然后,对DBN进行带标签的观测值的训练。 DBN采用基于帧的方法进行训练,并带有softmax输出层。训练有素的DBN用于计算每个观察结果在字符标签上的后验分布。在我们的框架中,使用Karhunen-Loeacute;ve变换(KLT)通过降维算法将后验概率解相关(Kittler and Young,1973)。在串联HMM方法中,后验估计被认为是训练新HMM(GMM-HMM)以便执行序列建模的观察。
4实验评估
我们针对三种不同的脚本,分别是拉丁(RIMES数据集),阿拉伯(IFN / ENIT数据集)和印度(Devanagari数据集)脚本对单词识别任务进行了实验。
RIMES数据集(手写文档和传真的识别和索引)(Augustin等,2006)
图2 DBN-HMM串联方法用于单词识别的工作流程
在ICFHR和ICDAR比赛中使用,以评估不受约束的手写识别系统。 数据集包含个人发送给公司或主管部门的邮政邮件或传真。 它由59
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239492],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 基于极值优化的自适应分数阶BP神经网络在手写体数字识别中的应用外文翻译资料
- 大功率LED照明用DC-DC转换器中半导体开关温度的无线监测外文翻译资料
- 数据采集系统外文翻译资料
- 基于FPGA的智能无线传感器网络温度采集系统外文翻译资料
- 无线传感器网络作为基于Web的建筑环境监测系统的一部分外文翻译资料
- 学习用于音频分类的可分离时频滤波器组外文翻译资料
- 基于ARM处理器的自动施肥数据采集控制系统外文翻译资料
- 多路温度传感器外文翻译资料
- 太阳能蒸馏:有前景的供水替代技术,使用免费的能源,技术简单,清洁外文翻译资料
- 应用无人机喷洒消毒液抗击COVID-19大流行–考察影响效果的无人机相关参数外文翻译资料