2 DSP简介
DSP(数字信号处理器)自从1982年诞生以来,获得了飞速的发展。本文采用4颗TI(Texas Instrument)公司高端DSP-TMS320C6416所设计,具有主频高、双套外部地址和数据总线等特点,非常适用于图像处理等领域。有关该芯片的特点如下,详细资料可见参考文献[3]。
(1) DSP内核采用超长指令字(VLIW)体系结构,有8个功能单元、64个32 bit通用寄存器。一个时钟周期同时执行8条指令,运算能力可达到 4800MIPS(每秒百万条指令),支持8/16/32/64 bit的数据类型。两个乘法累加单元一个时钟周期可同时执行4组16×16 bit乘法或8 组8×8bit乘法,每个功能单元在硬件上都增加了附加功能,增强了指令集的正交性。除此之外还增加了一些指令用以削减代码长度和增加寄存器的灵活性;
(2)为使数据能保持对超快速DSP内核的供给,TMS320C6416采用了两级超高速缓存器,即16 KB的一级数据Cache、16 KB的一级程序Cache和1 024 KB的数据和程序统一内存。为了达到更大的扩展,1 024 KB内存中的256 KB存储空间可设置用作二级Cache;
(3)TMS320C6416的存储器接口提供了到SDRAM、SBSRAM、异步器件如SRAM/ROM等存储器的无终端接口,也可连接到外部I/O器件;
(4)在TMS320C6416 中,增加了一个PCI接口,支持32bit宽的地址和数据复用总线,工作频率最高为33MHz;
(5)DSP器件比通用CPU家族的动辄几十瓦而言,其功耗一般在数瓦甚至毫瓦量级,这在各种功耗敏感场合显示出独特的优势,同时省去了繁杂的散热系统。本文采用C6416,I/O电压为3.3 V,内核电压为1.2 V。当时钟频率为600 MHz时,DSP的最大功耗小于1.6 W。
2.1 4×DSP的并行图像处理系统
使用4个TI公司高端数字信号处理器TMS320C6416构建一种新型的并行图像处理系统。该系统通过一个同步4口SRAM和系统总线构成互连结构,兼有紧耦合并行系统和松耦合并行系统的优点[4]。
2.2 4×DSP并行系统结构
图像处理算法灵活多样,而且还在不断地迅速发展,为满足日益复杂的图像处理算法和逐渐变大的图像规模,出于通用性考虑,系统中处理器之间需要灵活的、高带宽的通信和握手机制。图2给出了所设计的并行系统框图,采用4颗TMS320C6416芯片,能较快完成以前一台计算机需要长时间才能完成的任务。
从图2可以看出,该系统以紧耦合系统和松耦合系统为基础构架而设计的,结合了两者的优点。紧耦合系统通过共享的存储器来实现处理器之间的通信,处理器之间的联系比较紧密。松耦合系统中每个处理器节点带有存储器[5],处理器之间通过消息传递的方式来相互通信。该系统每个节点即是一台完整的DSP处理器并且带有SDRAM存储器,属于松耦合系统;而所有节点共享一个同步4口SRAM存储器,构成的整体是一个单一计算资源,属于紧耦合系统。因此,该系统具有紧耦合系统和松耦合系统的优点,相比于前面两者具有增强的可用性和更好的性能。