一种新的文本区域识别的Web图像处理算法,帮助商业OCR引擎提高其Web图像识别效率
关键词:图像识别,改良算法,骤变边界,连接组件
摘要
本文提出了一种新的基于文本区域识别的网络图像处理算法。统计数据表明,很大一部分网络文本信息被编码在Web图像中。但Web图像由于其特殊特性,有时会区别于其他类型的图像。因此用于商业的OCR产品由于Web编码格式的图像存在的特殊特性,往往无法完备地识别Web图像中的文字内容。本文提出了一种对Web图像处理的新的算法,旨在更好地定位图像中的文本区域,并为OCR程序输出结果提供更好的条件。在该算法中,首先将Web彩色图像转换为灰度图像,以模拟真实人眼感知到的文字边界的亮度转换。然后,利用边缘提取技术提取出所有对象以及其所有的倒置对象,并应用多次迭代的条件扩展技术在所有对象中选择出文本对象和文本的倒置对象。从大量的Web图像库中获得的实验结果表明,应用所提出的文本区域识别算法可以提高识别的精度。
1 引言
随着网络成为当下主要的信息来源,越来越多的文档通过在线的方式大量被发布和访问。这些信息的增长和其快速的更新换代为开发用于组织和搜索这个庞大的分布式web文档的自动系统开辟了新的前景。网络中包含了大量的信息,但即使是现有的搜索引擎也只能索引到这宏大信息的很小一部分。这个问题现状为Web文档分析和Web中存在的文本内容的提取带来了全新的挑战。虽然常使用传统的基于文本的相关技术来进行网络文档中内容提取,但这些文档通常还包括了大量的多媒体内容。据[1][2]文献记录显示,在一个网页上可见的单词总数中,有17%是以图像的形式存在显示的,而这些存在于图像中的单词文本通常是语义上和内容中最重要的。此外,在以图像形式存在的单词中,76%的内容没有出现在编码文本的其他地方,也就是说不属于为冗余内容。此外,在56%的情况下,对这些图像中的文本的提取存在着不完整、错误或不存在的情况。由于这些原因,对高级Web多媒体文档的处理技术方面的研究可以为网络智能信息的过滤和提取提供新的思路和方法。因此,为基于图像的文档识别技术能被证明为对Web文档的识别和提取方面存在着价值,且同时存在着开发新的分析Web多媒体内容的算法的必要性。
不幸的是,应用于商业的OCR引擎由于其特殊的关键特性,经常无法正确识别Web图像。Web图像通常存在一、分辨率较低,二、主要由图形对象组成,三、通常无噪点,四、具有抗锯齿的特性(见图一)。
(a)
(b)
图一 一个网络图像的示例(a)和一个其被放大后的图像示例来演示网络图像的关键特征。
文献中提供了几种可以处理彩色图像中的文本定位的方法。在[3]中,对象图片被假定为几乎一致的颜色。在[4]中,前景和背景的分割是通过将颜色分组成簇来实现的。[5]则提出了一种提高文本分割的分辨率的方法。在[6]中,使用纹理信息与神经网络分类器相结合来识别文本内容。可见最近在Web图像中定位文本的工作是基于将相似颜色的像素合并到组中,再使用模糊推理的算法机制[7]来选择文本组件。另一种方法是基于关于人类感知颜色差异的方式,并使用不同的颜色空间来近似于人类感知颜色[8]的方式来区分文字和背景。最后,[9][10]方法与上述相反,限制了对图像在RGB颜色空间中的操作,并假设文本区域的颜色均为一致,与本文的处理方式相类似。
本文提出了一种新的在网络图像中进行文本区域识别的方法。该方法是在EC-funded Ramp;D资助的研发项目CROSSMARC的框架下开发出来的,该项目旨在开发从特定领域的网页中提取信息的技术。我们的方法是基于人眼所感知到的亮度过渡过程。如果字符与背景存在明显的颜色变化,则由人眼将图像变化部分归类为文本。这意味着从文本体到前景的亮度转换超过了一定的阈值。此外,由于文本体的厚度有限,人眼观察到的所有字符的面积都不会超过一定的值。我们的方法体现了人眼感知文字过程的这些特征。据此,将网络彩色图像转换为灰度图像,以记录人眼所感知到的亮度的转换。然后,利用边缘提取技术帮助提取到所有文字对象以及其所有倒置对象。条件扩展技术有助于在所有对象中选择文本和倒置的文本对象。识别的指标是所有对象的厚度,在作为字符的情况下,其通常是有范围限制的。
在接下来的章节中,我们介绍了我们用于文本区域识别的Web图像处理算法以及相应的实验结果。该算法有助于商业OCR引擎提高其对Web图像识别的效率。且实验结果证明了应用所提出的算法后确实提高了识别精度。
2 相关成果
在项目中开发的一个大型的Web图像语料库在算法中被使用于测试。实验采用各种包含文本、反文本和图形的网络图像的测试集。通过从英语、法语、希腊语和意大利语的网页中选择650多张图像,编制了评价该技术的语料库。我们比较了著名的OCR引擎FineReader5[11]和不应用我们的文本区域定位技术所获得的结果。为了获得更好得到OCR结果,我们人为地提高了所有Web图像
的分辨率。在几乎所有情况下,应用我们的文本区域识别技术后,识别结果都得到了极大的提高。图二展示了该技术的应用示例。在650张图像的整个语料库上的检出率和识别精度方面的文本定位结果如表一所示。典型的OCR结果如表二所示。
图二 文本区域识别算法示例:(a)为原始图像,(b)为灰度图像,(c)为图像,(d)为图像,(e)为识别为文本的区域图像。
3 文本区域定位算法
3.1 边缘提取
我们假设考虑识别一个彩色的网络图像。首先,我们将RGB彩色图像转换为纯灰度图像。然后,我们通过骤变增加或降低的图像亮度定义和的黑白边缘和反向边缘图像:
其中D是人类肉眼可见的灰色度的对比度,d定义了x,y处我们搜索灰色度对比度范围轮廓的边界。图三显示了对于对象和反向对象的一个计算示例。
(a)
(b)
(c)
图三 (a)灰度图像、(b)边缘图像和(c)倒置边图像(参数使用:D=2、D=2)。
3.2 对象标识
对象被定义为与边缘像素相邻且具有相似灰度值的像素组。为了计算图像对象,我们继续对边缘图像进行有条件的扩展。只有当原始图像具有相似的灰度值时,才添加更多的周边像素入组。结构化元素的尺寸标注定义了所有对象的预期最大厚度。其中对象和反向对象的定义如下:
其中是结构元素的维度,是同一对象内灰度值的预期最大差异。图四显示了一个例子和计算示例。
图四 对于图三示例的使用,我们计算的对象为对象(a)、对象(b)和对象(c)(参数为S = 1)。
3.3 文本标识
上述条件扩展技术通过多次迭代(迭代算法中获得的结构元素中的几个值)有助于在图像中所有的对象中选择出文本对象和倒置文本对象。选择的指标是得到的所有对象的厚度,在作为字符的情况下,其通常是有限制范围的。
我们设一个黑白图像f的点的集合为P(f):
(5)
设构成图像f的所有的连接组件的点集为pi(f):
(6)
则为连接组件的像素数量,为与连接组件有四边相连接关系的背景的点集,为的连接组件以及为属于以下条件的连接组件中的像素数量:
TEXT or THER CATEGORY (7)
如果当增加n时,与连接组件有四边相连接关系的背景像素集数量几乎保持不变,则图像对象的连接组件被归类定判断为文本区域(见图3b的例子,在ngt;1时,对象的范围保持不变):
其中N的值取决于字母厚度的最大期望,s为允许四边相连接的背景像素集的变化的公差。我们查找四边相连接的背景像素而不是去选择前景像素的变化的原因是,由于存在更大的结构元素扩展的情况,连接的组件可能会被误判连接在一起。同样地,我们也为反向文本对象的定位设定了条件。
在图五中,我们给出了所提算法逻辑的流程图。
图五 文本区域识别算法逻辑的流程图。
4 结论和未来进一步的工作
本文提出了一种新的文本区域识别的Web图像处理算法,有助于提高商业OCR引擎的Web图像识别效率。它是基于仿人类光学视野所感知到的亮度转换的信息,包括边缘检测和条件扩展过程。从实验结果来看具有较好的应用前景,实验中得到的识别结果证明了该算法对传统的文字识别有很好的改进。
未来进一步的工作包括研究参数的调优,考虑文本字符具有的几何特征,创建一个自动评估工具来记录应用我们的文本提取方法后OCR引擎性能的改进。
外文原文资料信息
[1] 外文原文作者:S. J. Perantonis, B. Gatos, V. Maragos
[2] 外文原文所在书名或论文题目:A novel Web image processing algorithm for text area identification that helps commercial OCR engines to improve their Web image recognition efficiency
[3] 外文原文来源:
出版社或刊物名称、出版时间或刊号、译文部分所在页码:2003
网页地址:https://www.csc.liv.ac.uk/research/conferences/wda2003/Papers/Section_IV/Paper_14.pdf
二、外文原文资料:
A novel Web image processing algorithm for text area identification that helps
commercial OCR engines to improve their Web image recognition efficiency
S. J. Perantonis, B. Gatos and V. Maragos
Computational Intelligence Laboratory,
Institute of Informatics and Telecommunications,
National Center for Scientific Research i Demokritosi
153 10 Agia Paraskevi, Greece
sper@iit.demokritos.gr
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。