定义
随着人工智能和多媒体技术的发展,数字图像处理技术的应用越来越广泛。越来越多的文档被扫描成为数字图像,伴随计算机的普及,为人们的生活、工作和学习提供了方便。同时,在文档被扫描的过程中,数字图像会出现普遍的扭曲和阴影现象。由各种原因造成的扭曲文档图像,无论是对人们的阅读理解还是对文档图像处理的自动化都带来了影响。
目前,已经出现一些扭曲文档图像恢复的技术。这些技术大致划分为两类[1]:基于2D文档图像分析的恢复技术和基于3D文档模型重建的恢复技术。该分类是扭曲恢复技术分类的主流,多数恢复技术均围绕这一分类展开。
文献[2-4]均是针对分类中的前者进行研究,即从已有的扭曲文档图像出发,通过对扭曲文档的特征分析,找出合适的恢复算法。文献[1,5]则更多从造成文档扭曲的因素出发,包括硬件设备及扫描对象本身,通过重建文档的3D模型并辅以数学分析,找出合理的恢复算法。其中,基于3D文档模型重建且可行的前提必须是对象所呈现的模型是规范的,如圆柱状,这样势必对文档对象及其环境加以限制,如书脊平行于扫描光源等。文献[6]将3D文档模型重建与2D文档图像分析结合起来,解除一些限制,使其处理对象更加广泛。综上分析,这种基于3D模型重建的方法,为了建立规范的3D模型、解除各种限制,使加入的处理算法越来越多,从而使整个恢复技术显得更复杂。这会导致至少两方面问题:算法实现的复杂性提高和算法的整体效率降低。因此,它的适用性受到限制,尤其在处理大宗扭曲文档图像时显得不实用。
涉及内容
图像处理图像处理是指将图像信号转换成数字信号并利用计算机对其进行处理的过程。它最早出现于20世纪50年代,当时的电子计算机已经发展到一定水平,人们开始利用计算机来处理图形和图像信息。
数字图像处理作为一门学科大约形成于20世纪60年代初期。早期图像处理的目的是改善图像的质量,它以人为对象,以改善人的视觉效果为目的。图像处理中,输入的是质量低的图像,输出的是改善质量后的图像,常用的图像处理技术有图像增强与复原、编码压缩等。
图像处理的研究内容
1、图像变换
由于图像阵列很大,直接在空间域中进行处理,涉及计算量很大。因此,往往采用各种图像变换的方法,如傅立叶变换、沃尔什变换、离散余弦变换等间接处理技术,将空间域的处理转换为变换域处理,不仅可减少计算量,而且可获得更有效的处理(如傅立叶变换可在频域中进行数字滤波处理)。目前新兴研究的小波变换在时域和频域中都具有良好的局部化特性,它在图像处理中也有着广泛而有效的应用。
2、图像编码压缩
图像编码压缩技术可减少描述图像的数据量(即比特数),以便节省图像传输、处理时间和减少所占用的存储器容量。压缩可以在不失真的前提下获得,也可以在允许的失真条件下进行。编码是压缩技术中最重要的方法,它在图像处理技术中是发展最早且比较成熟的技术。
3、图像增强与图像复原
图像增强和复原的目的是为了提高图像的质量,如去除噪声,提高图像的清晰度等。图像增强不考虑图像降质的原因,突出图像中所感兴趣的部分。如强化图像高频分量,可使图像中物体轮廓清晰,细节明显;如强化低频分量可减少图像中噪声影响。图像复原要求对图像降质的原因有一定的了解,一般讲应根据降质过程建立“降质模型”,再采用某种滤波方法,恢复或重建原来的图像。
4、图像分割
图像分割是数字图像处理中的关键技术之一。图像分割是将图像中有意义的特征部分提取出来,其有意义的特征有图像中的边缘、区域等,这是进一步进行图像识别、分析和理解的基础。虽然目前已研究出不少边缘提取、区域分割的方法,但还没有一种普遍适用于各种图像的有效方法。因此,对图像分割的研究还在不断深入之中,是目前图像处理中研究的热点之一。
5、图像描述
图像描述是图像识别和理解的必要前提。作为最简单的二值图像可采用其几何特性描述物体的特性,一般图像的描述方法采用二维形状描述,它有边界描述和区域描 述两类方法。对于特殊的纹理图像可采用二维纹理特征描述。随着图像处理研究的深入发展,已经开始进行三维物体描述的研究,提出了体积描述、表面描述、广义圆柱体描述等方法。
6、图像分类
图像分类(识别)属于模式识别的范畴,其主要内容是图像经过某些预处理(增强、复原、压缩)后,进行图像分割和特征提取,从而进行判决分类。图像分类常采用经典的模式识别方法,有统计模式分类和句法(结构)模式分类,近年来新发展起来的模糊模式识别和人工神经网络模式分类在图像识别中也越来越受到重视。
文档图像处理文档图像获取
近年来,数字化文档被广泛应用于办公自动化、数字化图书馆、工业自动化等领域。随着科技的发展,传统扫描仪体积大、效率低、携带不方便等不足之处日益突出,而数字照相机体积小、价位低,可以很容易地携带并结合到手机、手提电脑以及各种网络设备中去,它还可以远距离地对背景文字及脆弱的珍贵文档拍照,更适用于无约束环境下的数字化操作。因此,将数字照相机引入文档图像分析已经引起越来越多人的关注。
Newman的调查表明,从报纸上提取段落时,基于PC摄像头的OCR操作比基于扫描仪的OCR操作效率高得多;Fisher等调查了在战场上用数字摄像机替换士兵携带sheet-fed扫描仪的可能性。经证实,数字摄像机能够以200dpi拍摄整张A4文档纸,已经达到OCR所要求的分辨率。
在过去的20年中,基于摄像机的文档分析已经有一定的应用,如自动阅读执照、书籍杂志分类,货运车ID、公路挂牌、危险标志识别等。
文档图像获取中的难题
用数字照相机拍摄的文档图像也有新问题需要解决:当文档表面弯曲变形时,数字相机拍到的文字及图形图像将会产生畸变;在扫描仪中,也会出现这一现象。文档图像的变形对后续处理工作,如 OCR识别、数字文档的版面分析、格式处理以及文档自动化都带来极大困难,因此必须首先通过图像矫正的方法对这种变形文档进行图像恢复。
在2001年的数字化项目中,德国代表哲学家Nietzsche在Duisburg–Essen大学对创作于1865至1945年的文本文档做了数字转换。这次转化的过程既复杂又耗时。很多文档使用德国哥特体(fraktur)活字技术印刷出来,而现在的OCR程序对fraktur活字识别不很理想,因此常常伴随着人工修改。对于那些质量差一些的以原始影印文件为主的文学来源,数字化过程则需要进一步的人工互动。其中阴影、倾斜和扭曲都会极大的降低OCR识别的准确度。
文档图像的处理内容
文档图像处理包含许多方面,下面对一些重要的技术做简要说明。
1、图像去色及二值化
存储在纸上的文档,若要输入计算机中,首先要通过扫描仪扫描成为数字图像。它可以是彩色图像,也可以是灰度图像,或者是二值图像,取决于扫描的具体过程。但一般文档处理系统要处理的是灰度图像,而且很多成熟的图像处理算法和工具包也是针对灰度图像的。在进入识别阶段时,识别引擎一般是针对二值图像的。因此,我们必须对输入的图像进行处理,将其二值化。
图像的二值化处理就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果。
将256亮度等级的灰度图像通过适当的阀值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中,二值图像占有非常重要的地位。首先,图像的二值化有利于图像的进一步处理,使图像变得简单,且数据量减小,能凸显出感兴趣的目标轮廓。其次,要进行二值图像的处理与分析,首先要把灰度图像二值化,得到二值化图像。
在我们所研究的文档图像处理这一特定领域中,图像的二值化一般是指将灰度图像转化为只包含黑、白两个灰度的二值图像。文档图像可以看作是由文字、背景、图片三类对象组成,而我们最关心的是文字区域二值化后的结果。
图像的这种转换必然会引起信息丢失,因此采用什么样的算法能够最大限度地保留识别时必需的信息(如字符的连通性),去掉不必要的背景信息和噪声,并且执行时间在实际可接受的范围内,是人们一直以来努力研究的问题。
2、倾斜检测与校正
文档处理系统要求的处理对象是工整的文档图像,或者倾斜角度已知,否则许多对图像的操作,例如投影分析,图像分割等就无法进行。显然,扫描进计算机的文档图像无法保证一定是正的,因此需要利用倾斜检测和校正的方法对其进行处理。经常采用的倾斜角度检测的方法有:基于文本行的检测方法,投影轮廓分析方法,和Hough变换方法等。
基于文本行的检测可以用于已知文本行方向(水平或竖直)的文档图像,它利用了对图像中连通体的分析。我们知道,连通体是一个灰度值相同的像素的集合,这个集合中任意两个像素之间都是8-近邻关系。可以用包含连通体内像素的最小矩形来表示连通体,它描述了连通体的大小和位置信息。如果已知文本行方向,我们就可以将连通体合并成文本行,并用直线逼近。该直线的倾斜角即为文本行的倾斜角。对整幅图像的文本行作同样分析,选出出现频率最高的角度,即可作为图像的倾斜角。
投影操作也是一种基本的图像处理方法。将图像按一定方向作投影,可以得到在该方向坐标轴上分布的波形,它描述了图像沿该方向上的黑像素分布情况。如果图像文本行是水平的,那么沿水平方向的投影波形将具有明显的波峰和波谷。基于这一点,我们可以在候选倾斜角度范围内转动图像,直至出现明显的波峰和波谷为止,这时得到的角度就是倾斜角度。
Hough变换方法是在倾斜检测中最常使用的方法,它抗噪声干扰的能力强,并且不受图像间隙干扰。它的原理是将直线从图像空间映射到参数空间。这样就将原图像中的直线映射到参数空间的一点,而原图像中的一点则对应着参数空间的一条正弦曲线。图像空间中任意两点所对应的正弦曲线在参数空间将相交于一点,进而,通过的直线上的所有点所对应的正弦曲线在参数空间都将相交于这一点。基于这一点,我们将直线检测问题转化为参数空间寻找局部最大值的问题。以上是标准Hough变换的基本思想。该方法适于文本行方向预先未知的情况。
3、版面结构理解
文档图像几何结构的理解也称为版面拆解,它是文档图像分析中的一个重要问题。版面拆解的目的是生成一个描述文档图像的层次结构:几何结构。它将图像分割成为具有相同特性的区域,为下一步的区域识别和文字识别做好准备。版面拆解的方法一般有如下三种:
自底向上(Bottom-Up,也称为数据驱动)。这类方法利用图像的局部信息,通过逐步将具有相同属性的区域合并,得到对文档版面的拆解。该方法能处理不同版面的文档和具有一定倾斜的文档,但是一般比较慢。
自顶向下(Top-Down,也称模型驱动)。该方法从图像全局出发,逐步对图像进行分割,最后得到图像的几何结构。对Manhattan式的版面,该方法快速而且有效;但是对复杂文档效果欠佳。影响自顶向下方法有效性的因素包括文本行位置的随意性,区域形状的不规则性以及文档图像的倾斜等。
综合方法(Hybrid)则尽量综合上述两种方法的特点,使算法的性能和适应性都得到提高。
扭曲文档图像的处理扭曲文档图像的恢复是当今图像处理的研究热点之一,随着更多学者的加入,目前已出现一些文档图像的扭曲恢复技术。这些技术大致划分为两类:基于2D文档图像分析的恢复技术和基于3D文档模型重建的恢复技术。
1、基于2D文档图像分析
基于2D文档图像分析的算法,摒弃对扭曲现象的几何模拟,直接对文档图像进行分析,包括倾斜度、文本行、字符或词组特征,然后设计出一种不受文档图像以外因素影响的扭曲恢复技术。该算法不需要清楚的知道扭曲造成的原因。
Wu和Agam在其文献[7]中提出一种方法,该方法在给定角度范围内通过最小化局部累积投影从而检测和跟踪单文档图像中弯曲的文本行。这种算法是从给定区域的左边界(假设左边界是接近垂直的并由人为保证)开始,逐渐跟踪这些弯曲的文本行。这些文本行用于重建可用于恢复扭曲的目标框架。在文献[7]中这种算法被应用于由数码相机拍摄的低透率的文档。他们没有在文档和相机的成像面的角度上加任何限制。另一方面,利用这种方法所呈现的结果仍然在文档的扭曲区域存在文字的失真。
Zhang和Tan在文献[8]中提出的算法,是通过光明区与从合订本扫描的灰度级文档图像造成的阴影区之间的区别进行弯曲检测的。图像扭曲的部分在阴影区,连接组件的文本行可用近似于二次方程的曲线描述。而在非阴影区域的文本行则可参考近似直线确定。阴影区中两曲线的结合处的相对位置用以参照非阴影区域相应的直线,上下垂直的移动连接组件的曲线,直到其方向与两曲线切线的平均角度相吻合。
2、基于3D文档模型重建
基于3D文档模型重建的算法,主要从造成文档扭曲的因素出发,包括文档及其摆放角度、光源方向、图像获取设备特征等因素。通过综合分析,尝试找出文档理想的3D模型从而对扭曲现象进行模拟,再利用已有的数学知识进行恢复。该算法的优势在于可利用已有知识,很好地模拟文档扭曲的几何模型。
在文献[9]中,Cao et. al.针对由数码相机拍摄文档造成的扭曲提出了一种圆通模型。他们的纠正算法仅局限于书形成的圆筒表面的母线平行于成像面的情况,即3D文档模型成圆柱状。
Zhang et. al.发表的文献[10]中提出了一种算法,可以恢复文档扭曲。这种文档扭曲在扫描较厚的合订本时产生的,而且书的脊柱与扫描光线是平行的。可见,现有基于模型算法的局限就在于他们需要很多前提条件。目前还尚没有一种几何模型可以适用于任何形式下扭曲文档图像的识别与自动恢复。
3、比较与分析
基于分析的和模型的算法都能提高OCR的识别率。结果显示,在第一类算法中纠正过的文本中剩余的弯曲率较高,但其边界适应性仍是明显的优势。由于我们项目中的原始文档经常不可靠,外部因素不确定,加上数字化和处理文档的过程可能处于分布式,因此第二类算法显得不适用。
小结本章主要介绍了文档图像处理的相关知识,从文档图像的获取及获取中遇到的难题入手,介绍了文档图像的处理技术,进而引申到扭曲文档图像的处理,并对现有扭曲文档图像的两种恢复技术原理做了简要说明。
2D文档图像扭曲恢复的预处理
基于2D文档图像分析的扭曲恢复技术,整体分为三步:预处理、扭曲恢复和后处理。
系统分析与设计1、扭曲恢复技术流程
文献[2-3]对各种基于2D文档图像分析的方法进行描述,然而这些方法处理的对象都是西文。众所周知,中文和西文有着很大的区别,因此以上很多方法在处理 扭曲的中文文档时不实用。这里从当前处理西文的方法出发,结合扭曲状态下的中文特征,找出一种简单有效的中文文档扭曲恢复技术。技术流程如图3-1。
预处理
文档图像预处理,是将种类繁多的格式归一化为程序易处理的位图格式,且处理成为效果较好的二值化图像,为其扭曲恢复做好准备。过程中涉及到格式转换,图像去色及二值化,以及噪声消除等。
扭曲恢复
在扭曲恢复中,我们首先对预处理后的二值化扭曲图像进行分析,采用相关的技术和算法对其中扭曲的文本进行恢复,然后输出。该步主要包含了字符和文本行标识,曲线分割与倾斜校正,以及扭曲恢复等。
后处理
扭曲恢复后的图像有明显的信息丢失,后处理将最大限度的保存处理后的结果,并尽可能的进行信息补充与恢复,主要包括断笔的修复和背景色的载入。
扭曲恢复技术的原理及具体实现在第三章至第五章中做了详细描述。
2、需求分析与系统设计
1、需求分析
(1)目的:对扭曲的文档图像进行一定的恢复。
(2)范围:通过照相、扫描、复印等获取的扭曲的文档图像。
2、系统设计
(1)用户界面设计。
(2)主菜单设计。
扭曲恢复处理的菜单主要包括预处理(Preprocessing)、扭曲恢复(Dewarping)、后处理(POstprocessing)以及过程(ProGress)。其中,预处 理中包含了噪声去除、图像去色、和图像二值化;扭曲恢复包括文本行与字符标识、曲线分割与倾斜校正、字符平移;后处理则是断笔修复及背景载入;过程主要对处理过程的结果进行呈现,具体涉及可以如图3-4。
文档图像预处理1、图像去色
图像去色就是将图像的颜色信息去掉,转换成灰度图像。由于本课题选取了合理的开发环境,可以容易地将各种格式的图像转换为易于像素计算的位图。然后利用公式(3-1),将彩图转换为灰度图像。
Gray = 0.11 * Red + 0.59 * Green + 0.3 * Blue (3-1)
实验表明,该方法灰度处理的效果较好,如图3-5与3-6,为处理后结果。
2、噪声消除
图像噪声是干扰图像正常显示的无用信息,给图像的处理带来很大的麻烦。因此在图像预处理中都会针对性的将噪声消除。
消除噪声的经典方法很多,下面简要介绍其中的几种:
1、均值滤波器
它是用一个有奇数点的滑动窗口在图像上滑动,将窗口中心点对应的图像像素点的灰度值用窗口内的各个点的灰度值的平均值代替,如果滑动窗口规定了在取均值过程中窗口各个像素点所占的权重,也就是各个像素点的系数,这时候就称为加权均值滤波。
2、自适应维纳滤波器
它能根据图像的局部方差来调整滤波器的输出,局部方差越大,滤波器的平滑作用越强。它的最终目标是使恢复图像f^(x,y)与原始图像f(x,y)的均方误差e2=E[( f(x,y)- f^ (x,y)) 2]最小。该方法的滤波效果比均值滤波器效果要好,对保留图像的边缘和其他高频部分很有用,不过计算量较大。维纳滤波器对具有白噪声的图像滤波效果最佳。
3、中值滤波器
它是一种常用的非线性平滑滤波器,其基本原理是把数字图像或数字序列中一点的值用该点的一个领域中各点值的中值代换。其主要功能消除孤立的噪声点,所以中值滤波对于滤除图像的椒盐噪声非常有效。中值滤波器可以做到既去除噪声又能保护图像的边缘,从而获得较满意的复原效果,而且,在实际运算过程中不需要图像的统计特性,这也带来不少方便,但对一些细节多,特别是点、线、尖顶细节较多的图像不宜采用中值滤波的方法。
3、图像二值化
图像二值化方法很多,大致分为全局阈值二值化和局部自适应阈值二值化。不同的二值化方法得出的结果也相差甚远,全局阈值二值化无论从算法时空复杂度还是实现难易都很简单,但效果不理想;局部自适应阈值二值化算法复杂度较高,实现复杂,但效果较好。因此,如何选择合适的二值化算法至关重要。经过试验对比,选择文献[11]提出的二值化方法。
1、算法步骤
本文采用的二值化方法分为以下几步:
(1)噪声消除,灰度值图像I经滤波去噪处理成灰度值图像II,如公式:
这里的滤波去噪在上一节的噪声处理中已完成。
(2)以文献[12]的方法,获取前景区域的粗略估算。其中阈值的确定有公式:
T=m+( 1-k*( 1-S/R)) (3-3)
式中m为均值,S为局部标准差,R为动态标准差(取128),k=0.2/0.5 [0,1]。
(3)计算图像II的背景区域B,如下公式3-4:
(4)通过背景表面B与图像II的组合预测,确定最后阈值d,进行二值化,采用公式3-5:
2.实验结果与分析
实验证明,本文采用的二值化方法在对文档图像进行处理时,时间复杂度较全局阈值二值化要偏高,但其处理效果较好,这对后续字符和文本行标识至关重要。以图3-6作为处理对象,进行实验结果对比,如图3-9。
文档图像的扭曲恢复
本章是整个扭曲恢复技术的重点,也是本文研究工作中的创新点。这里从二值化图像的分析开始,结合对文档特征的观察与分析,经过字符和文本行标识、曲线分割与倾斜校正、以及字符平移的几步处理,完成对二值图像的扭曲恢复。
字符和文本行标识字符标识,是指在文档图像中将具有独立意义的字符用特殊符号表示出来,如英文单词、中文汉字等。实际上,在缺乏词库的情况下完全准确的标识出字符是不可能的。因此只能结合文档特征,通过参数设置标识出尽可能多的独立字符。
文本行标识,是指将文档图像中的文本行用特殊符号表示出来。文本行标识的方法很多,如基于直线拟合[13]、基于连通性检测[14]和基于投影等。
本文是通过连通性检测,并用不同颜色对各行各字加以区分。
1、标识的步骤
文献[15]已提出了标识的算法,该算法中的检测参数只适用于西文。本课题处理对象为扭曲的中文文档图像,针对该对象的特点,本文采用基于连通性检测的标识方法,主要参考文献[15]和[16],并在此基础上调整,通过试验对比,找出合适的字符和文本行标识方法。该方法分为以下两个步骤:
(1)边界归零。将图像的边界像素归一化为背景色,这种设置类似哨兵,可降低算法实现的复杂性。
(2)一次扫描标识。按照从左至右,从上到下原则,从图像的起始像素开始扫描。过程中,利用前景像素的连通性,对当前像素的8个相连像素进行判断,若存在一个连通的点,则再对该点进行递归判断,直至8个相连像素中均无连通像素为止,后用合适的颜色加以标识。这里,连通像素的参数设置为3*3矩阵,也可设置其他参数,即可进行不同大小的文本块标识,若参数合适,可直接将文本行标识出。
4.1.2实验结果
以图3-9-C为处理对象进行标识,结果如图4-1:
标识采用的是字符连通性原理,因此参数的设置直接影响到标识的效果。由于汉字的复杂性,在字符标 识的过程中,参数过小,容易出现一个汉字被标识为多色(理想情况是一字一色);反之则会出现多个汉字标识为一色,如图4-2。行标识同样存在这种情况(如图4-3),如果参数设置合适即可标识出整行。
曲线分割与倾斜校正已知文字行方向,将连通体合并成文字行,并用直线逼近。该直线的倾斜角即为文字行的倾斜角。对整幅图像的文字行作同样分析,选出出现频率最高的角度,即可作为图像的倾斜角。该方法是基于统计的原理,用出现频率最高的角度代替所有文本行的倾斜角度。对于接近整体倾斜的文档图像,这种方法是合理的,且处理效率较高。然而对于扭曲的文档图像,甚至扭曲程度较高的图像,该方法适用性就大大降低。
还有一种思想则是取该文本行基线曲线上被认为是最有代表性的切线斜率直接代替整个曲线斜率。
本文采用极限思想,即当截取曲线的片段小至一定程度时,我们认为截取的片段为直线线段。比起以上两种方法,容易知道,这种极限思想无论是在整体倾斜的情况下还是在扭曲程度比较高的情况下,均比较合理。采用该思想,可将复杂的曲线处理转化为直线处理,因为被截取的片段是被认为是倾斜非扭曲的。
具体做法是采用行内逐字跟踪,记录各汉字包围框的上下边界点,也即是对已知点求插值曲线。无论是线性,还是扭曲,求出的曲线都是文本行基线的最好描述,因此是合理的。再通过两汉字间的两点确定一直线,测定该直线参数并进行倾斜校正,以此类推至处理完该行整条曲线,而后拓展至整个文档图像。
字符平移平移的思想
在极限思想下,行内很多词组被认为是倾斜的,经校正后,该词组处于类水平位置,但整行没有在同一水平位置上。这就需要将同一行的字符或词组按照该行的基准点进行平移,至该行内所有字符或词组处于该水平位置。经过校正和平移处理后即得到扭曲恢复的二值化文档图像。
小结本章详细介绍了我们研究工作中的创新点,包括文档图像的标识方法、极限思想的运用、字符平移等。在每一步处理后,我们同时给出比较结果与分析。经过本章处理,基本上实现了从输入的扭曲文档图像到扭曲恢复后图像的转变。同时,在处理过程中有大量信息的丢失,因此需要对扭曲恢复后的图像进行最后处理。后处理与最终结果的测试与分析将在下一章中作详细说明。
文档图像的后处理
预处理过程中,原始图像失去了颜色等信息;扭曲恢复过程中,由于技术的不成熟,也导致文字失真,这些信息的丢失都是不可逆的。这需要我们在后处理中除了最大化保留处理的结果之外,还要尽可能弥补丢失的信息。这里后处理具体指对恢复图像中的文字失真进行断笔修复,以及背景信息载入。
断笔修复扭曲恢复技术的不成熟,会导致在处理过程中丢失文字的笔画信息,因此我们需要对应地弥补其丢失的信息。具体做法是对当前恢复的图像进行文字标识,通过对该文字的合理膨胀,达到弥补信息的目的。这里采用的膨胀算法是对当前点的8个相邻像素的处理,因较为简单,这里不再赘述其算法伪代码。
进行断笔修复后的效果较为明显,如图5-1。
背景恢复二值化处理导致当前图像的背景全部丢失,因此我们需要将二值化过程中保留下的背景载入到断笔修复后的结果中去。由于中文特征的复杂性,二值化过程保留下的背景并不是理想的纯背景信息如若直接加载扭曲恢复后的图像,就会有阴影,效果不理想如图5。本文的做法是对该背景进行均值处理,从而代替直接载入,背景恢复后的效果,如图5-2。
实验结果本课题最终的实验结果主要是进行OCR测试,通过比较OCR识别率,说明处理的有效性。所谓Optical Character Recognition(OCR),就是光学字符识别,是文字自动输入的一种方法。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中。
小结本章介绍了扭曲恢复图像的后处理,经过最终的后处理,扭曲的文档图像在一定程度上得到了恢复。同时本章的实验结果与分析,表明扭曲文档图像经过恢复后的OCR识别率明显要高于未经过处理的原图的识别率。同时证明,本课题提出的扭曲文档图像的恢复技术是可行的且有效的。
总结与展望
总结这里对研究工作进行总结,本课题的工作是对扭曲文档图像的恢复技术进行研究,通过对2D文档图像的特征分析,尤其是扭曲状态下的中文文档图像的特征,结合当前适用于西文文档图像的扭曲恢复算法,提出了一种简单可行的,且适用于中文文档图像的扭曲恢复技术。该技术能对一般的扭曲文档图像进行恢复,若再加以改进即可应用于生活实践。
后续研究本课题采用的恢复技术,仍有较大的改进余地。虽然从实验结果来看,该技术能够初步实现对扭曲文档图像的恢复,明显提高其OCR识别率。但该技术还不成熟,运用在实际项目中,面对大宗的扭曲文档图像处理时,可能会显露出很多问题。首先,实际项目需要有较高的时间效率,该技术在二值化处理方面稍显复杂,有很大简化的空间;同样,在字符标识和行标识的处理中,采用堆栈技术明显增加了时间的复杂度,若能找到其他途径,便再可提高其时间效率。其次,标识算法和文本行基线的曲线划分仍需要通过大量实验得到合适的参数,以便改进校正的效果。因此,整个处理过程还有许多需要商榷改进的地方。今后的研究和改进若能集中在以上分析的几点,时间复杂度在实际可接受的范围内,则该技术即可广泛运用于实际项目中。
参考文献
[1] C.L. Tan, L. Zhang, Z. Zhang and T. Xia, Restoring Warped Document Images through 3D Shape Modeling[J], IEEE Trans. on Pattern Analysis and Machine Intelligence, 28(2), 2006, pp. 195-208.
[2] N. Stamatopoulos, B. Gatos, I. Pratikakis and S.J. Perantonis, A Two-Step Dewarping of Camera Document Images[C]. The Eighth IAPR International Workshop on Document Analysis Systems, 2008. DAS '08.
[3] Lothar Mischke and Wolfram Luther, Document Image De-warping Based on Detection of Distorted Text Lines[C], ICIAP 2005, LNCS 3617, pp. 1068–1075.
[4] Changhua Wu and Gady Agam, Document Image De-warping for Text/Graphics Recognition[C], SSPR&SPR 2002, LNCS 2396, pp. 348–357.
[5] 刘婀娜,罗予频,华成英. 变形文档图像的矫正方法研究[J],微计算机信息, 23(1,3),2007,pp.260-262.
[6] Bin Fu, Minghui Wu, Rongfeng Li, Wenxin Li, Zhuoqun Xu, Chunxu Yang, A Model-based Book Dewarping Method Using Text Line Detection[C], In 2nd Int. Workshop on Camera-Based Document Analysis and Recognition, Curitiba, Brazil, 2007.
[7] Wu,C., Agam,G., Document Image De-Warping for Text/Graphics Recognition[C], Proc. of Joint IAPR 2002 and SPR 2002, Windsor, Ontario, Canada, Aug. 2002, pp. 348-357
[8] Z. Zhang & C. L. Tan, Correcting document image warping based on regression of curved text lines[C], International Conference on Document Analysis and Recognition, Edinburgh, Scotland, 2003, pp. 589–593.
[9] Cao, H., Ding, X., and Liu, C., A Cylindrical Surface Model to Rectify the Bound Document Image[C], Ninth IEEE ICCV 2003 Vol. 1, Nice, France, Oct. 2003, pp.228-233
[10] Zhang, Z., Tan, C. L., Fan, L., Estimation of 3D Shape of Warped Document Surface for Image Restoration[C], ICPR 2004, Aug. 2004, Cambridge, UK, pp. 486-489
[11] B. Gatos, I. Pratikakis & S.J. Perantonis, Adaptive Degraded Document Image Binarization[J], Pattern Recognition, 39, 2006, pp. 317-327.
[12] J. Sauvola, M. Pietikainen, Adaptive document image binarization[J], Pattern Recognition, 33, 2000, pp.225-236
[13] 谢凤英,姜志国,汪雷. 基于空白条方向拟合的复杂文本图像倾斜检测[J], 计算机应用,26(7),2007, pp.1587-1589,1597
[14] 卢达,浦炜,谢铭培. 文本行字符基线的精确测定算法[J], 小型微型计算机系统, 21(7),2000, pp.726-728.
[15] B. Gatos, K. Ntirogiannis, Restoration of arbitrarily warped document images based on text line and word detection[C], Proceedings of the Fourth conference on IASTED International Conference: Signal Processing, Pattern Recognition, and Applications Innsbruck, Austria, 2007, pp. 203-208.
[16] Ayman AbuBaker,RamiQahwaji, Stan Ipson, Mohmmad Saleh, One scan connected component labeling technique[C], 2007 IEEE International Conference on Signal Processing and Communications (ICSPC 2007), 24-27 November 2007, Dubai, United Arab Emirates.
[17]龚声蓉,王林,刘纯平等. 多媒体技术应用[M]. 北京:人民邮电出版社,2008.
[18]张宏林. Visual C++数字图像处理典型算法(第二版)[M]. 北京:人民邮电出版社,2008.
[19]刘燕清龚声蓉.基于一次排序动态编码的HUFFMAN编码算法[J].计算机应用与软件,2009,26(12):86 - 88,176.
声