一、引 言
MPEG-4是运动图像专家组(Moving Picture Ex-pert Group)标准家庭中的一员,是国际标准化组织为多媒体通信制定的一种解决方案。当今迅速发展的交互式计算机游戏图像显示、交互式视频点播(VOD)都表明电视正由“纯线性”向“非线性”的方向发展。MPEG-1/2均是以音频帧、视频帧为编码对象的,图像中的AV(Audio、Video)对象所组成的场景不能与人们进行交互。而MPEG-4的主要特点是对图像中的内容进行编码,其具体的编码对象就是图像中的音频和视频信号,称为AV对象。MPEG-4就是围绕着AV对象的编码、存储、传输和组合而制定的。所以,MPEG-4有非线性电视的编码、存储、传输和组合的标准之称。
二、MPEG-4的图像与视频标准的技术结构
1.MPEG-4的图像与视频标准的技术结构
如图1所示,底层是VLBV(Very LowBit RateVideo)核心,它为5~64 kbit/s视频操作和应用提供算法与工具,支持较低的空间分辨率(低于352x288像素)和较低的帧频(低于15 Hz)。VLBV核心支持的专用功能包括实时多媒体应用:支持矩形图像序列的有效编码,具有高编码效率、高精度、高容错度、低延时等特点;以及多媒体数据库应用:支持多媒体数据库的存储、随机存取以及FF/FR(快进/快退)等功能与操作。
2.各模块功能及实现
(1)多媒体信息处理模块
它主要基于MPEG-4标准,根据不同的应用要求对视频和音频数字信号进行不同程度的压缩/解压缩。
1)视频/音频信号的压缩
采用TI公司最新推出的TMS3206415DSP芯片,它支持图像的8 bit数据处理的指令。它的运算速度快,最高运行速度高达600 MHz,指令周期最短为1.67 ns,峰值处理速度达到了3 200~4800 MIPS。在音频/视频应用中,其性能提高15倍。具有先进的超长指令字结构(VLIW),获得当前应用设备所需要的极高性能。内核的8个功能单元能够在每个周期内执行4组16位MAC运算或8组8位MAC运算,以便在处理通信和影像算法中获得最大的并行性。如果用C6415同时完成一个通道的MPEG-2视频编码、一个通道的MPEG-4视频编码和一个通道的视频解码,其硬件资源还只占用了50%,可见其强大的计算能力。该芯片具有1 056字节片上SRAM的实时分层存储系统,用于加快超高速DSP内核。64通道的增强型存储器直接存取(EDMA)控制器,显示出出色的并行性特点。外部双总线提供了超过1.2 G字节的外部存储器带宽。同时还提供33MHz/32 bit的PCI接口及3个多通道缓冲串行口。这些都为视频、音频信号的实时处理提供了便利的条件。
2)视频压缩模块
采用MPGE-4标准,实现基于内容的编码和编码可分级性,其核心编码器的结构如图3所示:基本层采用的是MPEG-4基本模式编码,并输出基本视频流,增强层的输入信号是原始VOP和帧存(重建)的VOP的差值,并对其差值进行8×8的DCT,然后对DCT系数进行比特平面编码。根据比特平面的重要性,将重要的比特放在码流前端,如一个块的MSB,将次要比特放在后端,比如一个块的LSB,这样在网络发生拥塞时就可以先丢弃部分不重要的比特以减缓网络负载,但解码端对接收码流仍可解码,只是图像质量会有所下降。解码器是编码器的逆过程。
3)采用MPEG-4标准的视频压缩的特点
①传统编码与基于内容编码的统一
MPEG-4视频算法的核心是支持基于内容(Content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。为了实现预想的内容及交互等功能,MPEG-4引进了一个叫做“视频对象面”(Video Object Plane,简写为VOP)的概念,如图4所示。图4(a)表示支持MPEG-1和MPEG-2的普通MPEG-4编码器,它把视频图像都认为是一个矩形区,图4(b)表示MPEG-4的甚低码率图像(VLVB)的核心编码器。它是假设每帧图像被分割成许多任意形状的对象,每个对象都有可能覆盖描述场景中感兴趣的物理对 象或者内容,这被定义为VOP。然后单独对VOP的形状、运动和纹理信息进行编码和传送构成一个单独的视频对象层(Video Object Layer,简写为VOL)。此外,还需要标识每个VOL的信息也包含在编码后的比特流(Bitstream)中,也包括各种VOL的视频图像在接收端应该如何进行重新组合的信息,以便重构完整的原始图像序列。这样就可以对每个VOP进行单独解码,提供了管理视频序列的灵活性。
如果输入图像序列只包含标准的矩形图像,就不需要形状编码,在这种情况下,MPEG-4 Video使用的编码算法结构也就与MPEG-1和MPEG-2使用的算法结构相同。
②实现编码的连续可分级性
MPEG-4第4版针对Internet视频流式传输的应用,定义了视频图像编码的精细可分级性(FGS,即Fine Granularity Scalability)及其实现工具。由于FGS编码提出了一个由网络接收端来控制其所接收的码流的概念,使其在Internet上的传输更具适应性。
在视频的分级编码技术中,视频信息被分成多个不同重要性的层,其中基本层包含了视频对象中最重要的基本信息,以此可以保证一个最基本的图像质量,在传输过程中被赋予较高的优先级。增强层的作用是在基本层的基础上进一步提高图像质量,在传输中赋予较低的优先级。这样在网络发生拥塞而丢包时,就可以先丢弃优先级较低的增强层,使得基本层发生丢包或误码的概率比增强层低,从而保证重建图像仍然有一个让人可以接受的质量。
4)语音压缩
采用CELP(Code Excited Linear Predication)码激励线性预测技术。传统的CELP编码器提供单一的码率的压缩,而本系统允许多种应用使用一个基本的编码器,在码率和带宽上提供了可扩展性。根据不同应用需要可选择8 kHz和16 kHz 2种采样频率,8 kHz采样频率对应100~3 800 Hz带宽的通信质量,16 kHz采样频率对应50~7 000 Hz带宽的通信质量。
(2)外部设备接口模块
本系统采用的PHILIP公司的视频编码芯片SAA7111,对模拟摄像机的输入模拟视频信号进行亮色分离,再对分离后的信号分别进行8比特采样,然后按CCR601R的标准编码成8比特宽度的Y(亮度信号)和UV(色度信号)数字图像信号,Y:U:V为4:2:2。芯片提供场同步信号VREF、行同步信号HREF、奇偶场信号RES1、像素时钟信号LLC2输出,省去了时钟同步电路的设计,可靠性得到提高。
视频解码采用BT864芯片完成数字视频信号到RGB模拟电视信号的转换。
模拟音频经芯片TLC320AD50C进行PCM编码/解码,其采样速率为8~22.4 kHz,并可通过编程设置,采用串行通信。
(3)控制模块
采用Microchip公司生产的PIC系列的单片机,采用内部带Flash程序存储器的机型。
它的功能是完成各个功能模块的初始化,以及对各个功能模块的控制,实现用户接口,实现H.245控制协议的功能,实现多媒体数据流、控制信息数据流等的复接/解复接;根据网络通信状态,及时地控制编码过程以实现对码率的控制,实现通信建立、通信过程控制,它是整个系统的控制核心。
(4)通信模块
采用的是Seiko公司生产的包含了TCP/IP网络协议堆的大规模集成电路S-7600A,它的功能是将数据流封装成IP数据包。它集成了TCP/IP协议,并提供了软件开发包,使应用程序的开发变得非常容易。其主要性能如下:支持TCP/IP(Ver.4.0)协议、PPP协议和UDP协议;支持与MPU(微处理器)并行或串行2种接口方式;配置了2个通用的Sock-et,实现与MPU的数据交换;支持与物理传输层的UART接口;同时还有10 KB的在片SRAM,其中有4KB作为TCP、IP、及PPP的数据缓冲器另6 KB分别为Socket0和Socket1两个数据交换口的发送和接收缓冲器。S-7600A中还有各种寄存器,MPU通过对寄存器的读写操作去控制S-7600A,包括时钟频率的设定,可以根据不同的应用,设定所需的时钟频率。
该模块以RS-232接口(TTL电平)方式与外部网络连接。
(5)网络接口模块
网络接口模块可提供2种入网方式,一种是通过Modem经PSTN入网,此种入网方式适用于对图像质量要求不高、低量运动的情况,比如可视电话;一种是以以太网接口或双绞线的方式入网,这种方式可提供较宽的带宽,可以达到比较好的图像、语音质量。
本系统现支持低码率(10~512 Kbit/s)的传输速率,采用S-QCIF格式或QCIF格式,帧率低于30帧/秒。若采用其它通信模块,则可支持(1~4 Mbit/s)的高码率的传输,提供较高的通信质量。本套系统还具有低功耗、算法的可升级性强、并且完全支持TCP/IP协议等优点,更重要的是,它支持MPEG-4标准,更符合宽带网络日趋智能化、交互化的发展趋势。
五、结束语
MPEG-4视频编码技术采用了现代图像编码方法,利用人眼视觉特性,从轮廓-纹理的思路出发,支持基于内容和对象的编码,支持基于内容的交互功能,并实现编码的连续可分级性,根据网络的通信状况控制视频图像质量。MPEG-4视频编码正在完成从基于像素的传统编码向基于对象和内容的现代编码的转变,它代表了新一代智能图像编码,必将对未来图像通信机制产生深远的影响。
参考文献