1 小波模极大值算法提取视频图像的文字边缘
1.1 二维小波变换模极大值原理
设θ(x,y)是一个二维平滑函数,引入尺度因
模M2jf(x,y)取极大值的点(x,y)对应于f*θs(x,y)的突变点或尖锐陡峭变化的位置,从而对应于图像f(x,y)的边缘。梯度grad(f*θs)(x,y)在点(x,y)处的方向表示在图像平面(x,y)上f(x,y)的方向导数的绝对值取极大值的方向。即计算一个光滑函数的导数沿梯度方向的模极大值等价于计算其小波变换的模极大值。
1.2 文本图像的边缘提取
在图像中,文本字符具有特殊的线条结构和纹理特点,其灰度(颜色)与背景相差较大,边缘变化剧烈,呈现出明显的横向、竖向、斜向边缘特征,中、高频信息较强。在小波图像中表现为相应区域高频细节子图的系数较大;横向线条、竖向线条和斜向线条分别在LH,HL以及HH子图相应位置表现为较大的小波系数。
根据上述原理,在实际计算时,采用3次B样条小波,对输入灰度文中图像进行保持图像大小不变的二维小波变换,得到W12jf(x,y)和W22jf(x,y)。改变j的值得到在不同尺度下图像的小波变换,文中选取小波分解最大尺度为J=3,其中1≤J≤J。由式(2)、式(3)计算每一点的模值和幅角,找出模图像在梯度方向上的极大值。设置阈值T>0,保留大于T的像素的模值。最后连接边界点,形成边缘。
图1(a)为使用小波模极大值算法提取的视频图像中的文字边缘,图1(b)、(c)、(d)分别为使用Canny算子、LOG算子和Sobel算子的结果。由图1可知,文中方法比传统边缘检测方法,能在检测出文本边缘的同时很好的抑制背景边缘。
2 文本定位
由于有的图像背景过于复杂,在上阶段处理得到的边缘图中仍存在一定数量的背景边缘噪声,将其通过局部阈值处理来滤除;在采用形态学处理生成候选文本区域后,用基于局部区域直方图和阈值的定位方法对水平和竖直文本进行定位;为适应不同尺度文本,采用两层金字塔模型分别定位并合成结果。
2.1 背景噪声滤除
受文献的启发,用两个同心窗对当前待处理的二值边缘图像EMP进行扫描。在实验中,选择经验值,外窗高为3h=30,内窗高为h=10,以h为步长进行扫描。根据外窗中的边缘密度直方图来决定对内窗处理时的阈值。同心窗的结构及外窗内的边缘水平投影,如图2所示,Pi(i=1,…,3h)是第i行的边缘像素数目。内窗内的局部阈值Tkernel就可以按照下面的公式计算
其中,Smax是最高边缘强度(O或255)。由式(4)可见,如果外窗内的边缘像素的数量非常少,密度小于某个阈值ξ,那么内窗内就很可能是背景噪声,则将内窗内的阈值设置为Smax;否则,内窗内很可能是一个文本区域,将内窗内的阈值设置为Tmiddle,Tmiddle可以是0~255中任意一个数字。则在当前扫描窗口,内窗内大于阈值的边缘像素被标记为文本;否则,将其值设置为0,即小于阈值的边缘像素被覆盖掉。
2.2 基于形态学的候选文本区域生成
形态学可将图像信号与其几何形状联系起来,用具有一定形态的结构元素去量度和提取图像中的对应形状以达到对图像分析和识别的目的。所以文中采用形态学处理来形成候选文本区域。形态学最基本的概念是腐蚀和膨胀,以及由它们组合而成的各种形态操作算子。
设Ω为二维欧几里德空间,图像A是Ω的一个子集,结构元素B也是Ω的一个子集,b∈Ω是欧氏空间的一个点,定义4个基本运算:
其中,膨胀具有扩大目标区域的作用,腐蚀具有收缩目标区域的作用,开运算可删除目标区域中的小分支,闭运算可填补目标区域中的空洞。