首 页文档资料下载资料维修视频包年699元
请登录  |  免费注册
当前位置:精通维修下载 > 文档资料 > 家电技术 > 单元电路介绍 > 其它电路
视频图像中文本的检测、定位与提取
来源:本站整理  作者:佚名  2009-08-24 10:02:39



目前,基于内容的视频信息检索(Content—Based Video Retrieval,简称CBVR)的研究已取得了较大的进展,但是检索所采用的特征基本上都是低级视觉特征,如颜色、纹理、形状、空间关系和运动等。这其中存在的主要问题是低级视觉特征对视频的描述与人对视频的描述存在较大差异,而且用户也不熟悉特征值的变化对视觉效果带来的影响。而视频本质上是由文本、视频和音频等多种媒质融合而成,它们之间存在语义关联,一种媒质和另外一种媒质表示同一语义或是其补充。只有通过挖掘构成视频的各种媒质所表达的丰富语义信息,克服单纯的视觉特征语义表达能力较弱这一缺点,充分提取视频中的高层语义,才能符合人们对视频信息的理解习惯,实现实用的基于内容的视频检索系统。
    在视频中,文本信息(如新闻标题、节目内容、旁白、工作人员名单等)均包含了丰富的高层语义信息,可用于对相应视频流所表达的事件、情节以及情感等进行高级语义标注。如果这些文本能自动地被检测、分割、识别出来,则对视频高层语义的自动理解、索引和检索是非常有价值的。视频中的文本分为人工文本和场景文本。目前的研究主要集中于人工文本,而场景文本的研究才刚刚起步。正是由于文本的种类、形状的多样差异性,目前文本提取算法还没有一个通用的评价准则和标准数据库。
    文中针对水平和竖直排列的静止及滚动文本,提出利用小波多尺度局部模极大值边缘检测算法来检测文本图像边缘,利用形态学处理生成候选文本区域,用由粗到精的多次水平、竖直投影来定位精确的文本位置。然后,对于文本子图用局部Otsu方法和区域填充处理进行文字二值化提取。

1 小波模极大值算法提取视频图像的文字边缘
1.1 二维小波变换模极大值原理

    设θ(x,y)是一个二维平滑函数,引入尺度因

    模M2jf(x,y)取极大值的点(x,y)对应于f*θs(x,y)的突变点或尖锐陡峭变化的位置,从而对应于图像f(x,y)的边缘。梯度grad(f*θs)(x,y)在点(x,y)处的方向表示在图像平面(x,y)上f(x,y)的方向导数的绝对值取极大值的方向。即计算一个光滑函数的导数沿梯度方向的模极大值等价于计算其小波变换的模极大值。
1.2 文本图像的边缘提取
   
在图像中,文本字符具有特殊的线条结构和纹理特点,其灰度(颜色)与背景相差较大,边缘变化剧烈,呈现出明显的横向、竖向、斜向边缘特征,中、高频信息较强。在小波图像中表现为相应区域高频细节子图的系数较大;横向线条、竖向线条和斜向线条分别在LH,HL以及HH子图相应位置表现为较大的小波系数。

    根据上述原理,在实际计算时,采用3次B样条小波,对输入灰度文中图像进行保持图像大小不变的二维小波变换,得到W12jf(x,y)和W22jf(x,y)。改变j的值得到在不同尺度下图像的小波变换,文中选取小波分解最大尺度为J=3,其中1≤J≤J。由式(2)、式(3)计算每一点的模值和幅角,找出模图像在梯度方向上的极大值。设置阈值T>0,保留大于T的像素的模值。最后连接边界点,形成边缘。
    图1(a)为使用小波模极大值算法提取的视频图像中的文字边缘,图1(b)、(c)、(d)分别为使用Canny算子、LOG算子和Sobel算子的结果。由图1可知,文中方法比传统边缘检测方法,能在检测出文本边缘的同时很好的抑制背景边缘。

2 文本定位
    由于有的图像背景过于复杂,在上阶段处理得到的边缘图中仍存在一定数量的背景边缘噪声,将其通过局部阈值处理来滤除;在采用形态学处理生成候选文本区域后,用基于局部区域直方图和阈值的定位方法对水平和竖直文本进行定位;为适应不同尺度文本,采用两层金字塔模型分别定位并合成结果。
2.1 背景噪声滤除
    受文献的启发,用两个同心窗对当前待处理的二值边缘图像EMP进行扫描。在实验中,选择经验值,外窗高为3h=30,内窗高为h=10,以h为步长进行扫描。根据外窗中的边缘密度直方图来决定对内窗处理时的阈值。同心窗的结构及外窗内的边缘水平投影,如图2所示,Pi(i=1,…,3h)是第i行的边缘像素数目。内窗内的局部阈值Tkernel就可以按照下面的公式计算

   
    其中,Smax是最高边缘强度(O或255)。由式(4)可见,如果外窗内的边缘像素的数量非常少,密度小于某个阈值ξ,那么内窗内就很可能是背景噪声,则将内窗内的阈值设置为Smax;否则,内窗内很可能是一个文本区域,将内窗内的阈值设置为Tmiddle,Tmiddle可以是0~255中任意一个数字。则在当前扫描窗口,内窗内大于阈值的边缘像素被标记为文本;否则,将其值设置为0,即小于阈值的边缘像素被覆盖掉。
2.2 基于形态学的候选文本区域生成
    形态学可将图像信号与其几何形状联系起来,用具有一定形态的结构元素去量度和提取图像中的对应形状以达到对图像分析和识别的目的。所以文中采用形态学处理来形成候选文本区域。形态学最基本的概念是腐蚀和膨胀,以及由它们组合而成的各种形态操作算子。
    设Ω为二维欧几里德空间,图像A是Ω的一个子集,结构元素B也是Ω的一个子集,b∈Ω是欧氏空间的一个点,定义4个基本运算:


    其中,膨胀具有扩大目标区域的作用,腐蚀具有收缩目标区域的作用,开运算可删除目标区域中的小分支,闭运算可填补目标区域中的空洞。

[1] [2]  下一页

关键词:

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分)

推荐阅读

图文阅读

热门阅读

Copyright © 2007-2017 down.gzweix.Com. All Rights Reserved .
页面执行时间:105,640.60000 毫秒