2.4系统工作原理和性能分析
数字视频数据存入视频缓冲器FIFO,这一速度可达266Mb/s。在DSP-1的DMA控制器作用下,前端数据缓冲FIFO中的数据被不断地转移到同步四口SRAM中,然后各个DSP分别或者同时读取要处理的数据。因为前端FIFO和同步四口SRAM都挂接在DSP-1的独立接口上,因此数据分配过程不会打扰到DSP-1本身算法的执行,甚至不会干扰到DSP-1对其外接的SDRAM存储器的读写操作。各个DSP协同完成整个图像处理算法,过程中可能会存在相互之间的通信或者数据交换,这同样通过同步四口SRAM完成。初始化时,各个DSP将程序分别下载到各自的代码空间和数据空间;对数据处理完成后,再不断地通过PCI总线将处理的结果分别送出。此外,系统上留有足够的扩展接口,方便对系统的进一步扩展。
采用4个TI公司高端数字信号处理器TMS320C6416的并行图像处理系统。单个的数字信号处理器TMS320C6416的频率为600MHz,处理器的运算能力4800MIPS,处理器的本地SDRAM为32 MB。现在的4×DSP系统,具有处理器的最高性能19 200 MIPS,系统具有总SDRAM为128 MB+128 KB。另外,考虑加速比和效率[6-7]。加速比指对某个特定的应用,使用并行算法的执行速度相对于串行算法的执行速度所快的倍数;并行系统的效率则指加速比与处理器个数之比。根据Amdahal定律[4],加速比会随着处理器数目的增加而提高,但是存在极限,而且这一极限是由问题本身所决定的,因为随着处理器数目的增加,额外开销会越来越大。对一幅1024×2048像素,每个像素1B的图像进行FFT运算,单一处理器运算时间为82 715.020 ms,4个处理器运算时间为20 703.770 ms,可得加速比为3.995,并行系统的效率为99.88%。可见,系统性能得到大幅提升。
随着数字信号处理器的飞速发展,图像处理算法更加复杂,多个DSP并行协同工作的构架将越来越多地被采用,应用会更加广泛。为满足日益复杂的图像处理算法和不断增加图像规模,采用4颗TMS320C6416芯片,设计了一套通用的高性能并行图像处理系统,能较快完成以前1台计算机需要长时间才能完成的任务。该系统可以作为一个通用的视频检测的硬件平台,实现多种检测算法,具有很好的可扩展性,容易在此基础上进行二次开发。实验和应用结果表明,该系统能够实时地计算交通信息参数,并实现图像和数据的网络传输,具有强大的视频处理能力和网络功能。总之,该方案灵活、简单,能够满足实时性的要求,实践证明可应用于车流量检测系统中以提高了系统的整体性能。