2.1 专用图像匹配器件LS9501介绍
LS9501[2]是西安微电子技术研究所根据图像匹配的特点研制成功的一个高速[20M]二维具有3x3内核的卷积器,它的主要功能是可同时对9对象素值实现乘加运算,即实现:.LS9501的输入是二维无符号8位的图像数据,输出是无符号20位卷结果和二维串行移位无符号8位的图像数据。其内部结构采用流水线并行技术,主要的功能单元有寄存器组、快速乘法器、加法器和控制电路,如图2所示。电路中设置的两组寄存器A和B由9个8位的移位寄存器构成,可存放9个图像象素数据。9个快速乘法器可保证在每一个时钟内同时进行9对图像数据相乘。其工作原理为:向A寄存器输入9个实时图象素数据后,再向B寄存器输入入九个基准图像素数据,当9对象素值输入完后,经过一定时间延迟,即可得到卷积结果。此后,如A寄存器的数据不变,B寄存器继续输入数据,则每输入一个数据,即可获得一个9个图像象素数据卷积结果。如果将多个LS9501卷积器级连起来,可实现更多对象素数据的卷积运算。例如,将4个LS9501级连,可实现36对象素数据的卷积,但要将4个卷积器的结果加起来,才能得到最后的结果。为此,西安微电子技术研究所研制了级连加法器LS9502,它的功能是在60ns内将4LS9501的输出结果求和。
3 图像匹配计算机结构
将4个卷积器LS8501和级连加法器LS9501组合起来作为TMS320C30数字信号处理器的快速协处理器部件,可组成一种高速的单DSP+多ASIC系统结构的嵌入式计算机,如图3所示。其工作过程为:首先TMS320C30按一定次序把36个实时图象素数据从实时图存储器中取出并输入LS9501的A寄存器中,然后,从基准图存储中将基准图像素数据输入B寄存器。输入36个基准图像素数据后,经过一定时间延迟,即可读出第一个36对图像象素数据卷积结果。此后即建立起流水,每输入一个基准图数据可得到相应36对图像象素数据卷积结果,直至对整个基准图匹配计算完。当实时图比较大时,可把实时图分成若干子图,然后对每一个子图分别进行卷积运算,最后再把它们的结果加在一起。这样,工作量最大的匹配计算任务由LS8501完成,TMS320C30将各个图匹配结果进行累加,求最大互相关值,并对卷器控制输入8位灰度图像数据。
4 图像匹配结果与讨论
在上述图像匹配计算机中,采用美国TI公司的TMS320C30(33M)DSP芯片主为处理器,4片关并行的LS9501和级连加法器LS9502组成图像匹配协处理器,外部图像存储器读写为零等待状态。根据组成的计算机系统结构,把36x36的实时图分成36个4x9的子图,然后计算每一子图与相应基准图子图卷积,最后把各个子图卷积结果累加在一起。通过编写TMS320C30汇编程序,对不同大小实时图和基准图进行搜索(即匹配所有(M-N+1)2个子图)最大互相差匹配运算,运算结果匹配位置正确。匹配运算时间如表2所示(对基准图像素数据预处理,不计运算时间)。
表2 实时图和基准图匹配运算时间
图像大小 | 运算时间/ms | ||
实时较 | 基准图 | 由单DSP执行 | 由DSP+ABIC执行 |
36×36 | 128×128 | 3081 | 623 |
36×36 | 150×150 | 4645 | 946 |
从表2可看出,采用专用集成电路LS9501可大大加快图像匹配运算速度,而且编程比较简单,实现容易,实测结果令人满意的。
本研究为国家"九五"预研项目"高速数字信号处理机技术"的一部分,已通过国家验收,并已应用于高速图像相关计算机中。这一研究的成功使我们看到了打破西方禁售策略的一种简单可行的方法。在实验中我们发现LS9501具有非常大的提高其实时性的潜力,现分析如下:
在实验中发现,LS9501内部图像数据移位寄存器时钟和3级加法器寄存器时钟不为同一时钟,这使得卷积模块的并行效率大为降低。如果将其改进为同一时钟,那笃在图3所示单机系统结构中,对(36x36)实时图与(128x128)或(150x150)基准图图像匹配时间将分别为394ms和592ms,图像匹配速度提高约1倍(软件模拟)。另外在实验的单机系统结构中,卷积模块完全靠TMS320C30控制,其时钟输入依赖TMS320C30读写信号,而且TMS329C30对外部存储器连续时读写信号不变化[1],必须加NOP指令以使读写信号变化。这样LS9501的性能没有得到完全发挥,而且TMS320C30也不能处理其它任务,二者依赖性太大,相互制约,并行度和实时性难以得到提高。卷积模块发展为智能卷积处理器,那么硬件结构右发展为主从式双机计算机系统结构:主机为DSP,从机为卷积处理器。这种系统结构可使DSP与卷积器的依赖 性降到最低,提高任务级并行性,也可最大限挥LS9501的性能,从而提高图像匹配的速度。在不增加单芯片实现的卷积规模条件下,开发更高速度的LS9501,同样可提高图像匹配的速度。不容质疑,提高单芯片实现的卷积规模必将较大地提高图像匹配的速度。
由实验结构及以上分析可以预见,图像匹配最大互相关的专用ASIC实现方法是一个简单可行的方法,并具有很好的发展前景,完全可以开发体积小、成本低、速度与TI公司C6000系列高性能DSP的速度相比美的卷积处理器。