2.4 通过子带分割来进行优化、编码
在传统的编码过程中,都是将整个频带作为操作对象,采用相同的比特分配对每个信号进行量化。而实际上,由于听觉曲线的存在及其它因素,对于幅度较小的信号可以分配较少的比特数就可以达到要求,因此将整个频带分成多个子频带,然后对每个子频带的信号独立编码,从而使得在每个子频带中比特分配可以根据信号自身来适应。
如图ABCD四个信号,如果对整个频带编码,对于D信号来说分配16比特来量化则显得多余浪费,所以如果将ABCD分别置于不同的子带内,则可在分别所处的子带内使用最适合的比特数分配给信号来编码,从而减少数据率,同时如果用于分割的子带分辨率越高,意即子带的频带相对越窄,那么在子带中分配的比特数
就越精确,而减少了比特率。
2.5 不同的实现方式
当前在数字音频编码领域存在着各种不同的编码方案和实现方式,为了能够让大家对此有一个较完整的认识,在本文中仅对当前流行的几种典型的编码方法做一个介绍。不管是通过那一种方式实现,其基本的编码思路方框图都大同小异,如图7所示。对于每一个音频声道中的PCM音频信号来说,首先都要将它们映射到频域中,这种时域到频域的映射可以通过子带滤波器(如MPEG Layers I,II,DTS)或通过变换滤波器组(如AC-3,MPEG AAC)实现。这两种方式的最大不同之处在于滤波器组中的频率分辨率的不同。
每个声道中的音频采样块首先要根据心理声学模型来计算掩蔽门限值,然后由计算出的掩蔽门限值来决定如何将公用比特区中的比特分配给不同的频率范围内的信号,如MPEG Layers I,II,DTS所采用;或由计算出的掩蔽门限值来决定哪些频率范围内的量化噪声可以引入而不需要去除,如AC-3,MPEG AAC所采用。
然后根据音频信号的时域表达式进行量化,随后采用静噪编码(如MPEG Layers I,II,DTS,MPEG AAC)。最后,将控制参数及辅助数据进行交织产生编码后的数据流。解码过程则首先将编码后的数据流进行解复用,然后通过比特流中传输的控制参数对音频数据反量化,或通过心理声学模型参数反向运算得到音频信号(如AC-3),最后将得到的音频信号由频域反变换到时域,完成解码过程。
另外多声道数字音频编码技术还充分利用了声道之间的相关性及双耳听觉效应,来进一步去除声道之间的冗余度和不相关度。去除通道之间的相关度,一种最常用的方法是M/S方式,在这种方式中是将两个独立声道的频谱相加和相减,根据两个声道的相关度大小,来决定是传输和/差信号还是传输原始信号。
由于人耳对于频率超过2-3kHz的声音定位主要是通过内耳密度差分(IID)实现的,因此为了进一步减少数据率,将各个声道中频率超过约定门限值的信号组合后再进行传输。这种技术应用在MPEG Layers I,II,III中,实现强度立体声编码;用在AC-3中对两个声道或耦合声道实现多声道编码。在MPEG AAC中,则既可实现强度立体声编码,又可实现多声道编码。
1、杜比数字AC-3编解码压缩过程
AC-3最早是在1991年的电影“Batman Returns”中应用的。它的应用不仅在电影界占有一席之地,而且它已被北美地区的数字电视及DVD视频定为其数字音频实施规范。我们熟知的AC-2,AC-3都是由两声道发展而来的,即杜比数字(Dolby Digital)。对于数字音频信号来说,通过应用数字压缩算法,来减少正确再现原始脉冲编码调制(PCM)样本所需要的数字信息量,得出原始信号经数字压缩后的表达式。
3.1 AC-3编码过程
AC-3编码器接受PCM音频并产生相应的AC-3数码流。在编码时,AC-3算法通过对音频信号的频域表达式进行粗量化,达到高的编码增益(输入码率对输出码率之比)。如图8所示。
编码过程的第一步是把音频表达式从一个PCM时间样本的序列变换为一个频率系数样本块的序列。这在分析滤波器中完成。512个时间样本的相互重叠样本块被乘以时间窗而变换到频域。由于相互重叠的样本块,每个PCM输入样本将表达在两个相继的变换样本块中。频域表达式则可以二取一,使每个样本块包含256个频率系数。这些单独的频率系数用二进制指数记数法表达为一个二进制指数和一个尾数。这个指数的集合被编码为信号频谱的粗略表达式,称作频谱包络。核心的比特指派例行程序用这个频谱包络,确定每个单独尾数需要用多少比特进行编码。将频谱包络和6个音频样本块粗略量化的尾数,格式化成一个AC-3数据帧(FRAME)。AC-3数码流是一个AC-3数据帧的序列。
在实际的AC-3编码器中,还包括下述功能:
l附有一个数据帧的信头(header),其中包含与编码的数码流同步及把它解码的信息(比特率、取样率、编码的信道数目等)。
l插入误码检测码字,以便解码器能检验接收的数据帧是否有误码。
l可以动态的改变分析滤波器组的频谱分辨率,以便同每个音频样本块的时域/频域特性匹配的更好。
l频谱包络可以用可变的时间/频率分辨率进行编码。
l可以实行更复杂的比特指派,并修改核心比特分派例行程序的一些参数,以便产生更加优化的比特指派。
l一些声道在高频可以耦合在一起,以便工作在较低比特率时,可得到更高的编码增益。
l在两声道模式中,可以有选择的实行重新设置矩阵的过程,以便提供附加的编码增益,以及当两信道的信号解码时使用一个矩阵环绕声解码器,还能获得改进的结果。发展是从85年以后开始的,其中包括了我们熟知的Eureka 147 DAB(尤里卡147数字音频广播)和DVB。不断发展的数字调制方式及编码算法都为数字音频广播提供了更加有效的传输和存储方式,使得在有限的带宽中以较低比特率来传输声道数更多、质量更优的音频信号成为可能。同样在数字音频广播系统的发展中也充分利用了这些以此为核心的新技术。以前,立体声广播起着主导的作用,现在随着越来越多的多声道数字音频系统的应用,在数字音频广播领域也已经开始接纳并制定相关的音频标准了。在Eureka 147 DAB和DVB中,已经包括了多声道数字音频的扩展。
7.1
Eureka 147 DAB国际协议是于1986年由16个欧洲成员组织为制定数字音频广播标准而制定的标准规范。随后又有一些新的组织机构加入到这项协议工作中去,并于1995年形成了第一个DAB的标准。在同一年中,世界范围的DAB论坛也相继成立,它们的目标就是促进世界各地更多的组织机构采用以Eureka 147 DAB为蓝本的数字音频广播的实现。
Eureka 147 DAB系统的设计是用来取代现行的FM广播业务的,它采用COFDM(编码正交频分复用)以便于更好地进行移动接收和克服多径效应,载波采用DQPSK(差值正交相移键控)进行调制,通道编码采用卷积编码,以满足可调整码率的需要。
Eureka 147 DAB系统使用1.536MHz的频谱带宽来传输最大不超过1.5Mb/s的数据,因此对于多声道来说, 如为6个声道,则每个声道的数据率最大不超过256kb/s。对于声道如何分配及使用,则是根据节目数量/ 数据业务与音频质量来折衷考虑的。由于早期的Eureka 147 DAB源编码的发展没有反映出当前最新发展的技术,同时由于历史原因及DAB标准由欧洲制定,而欧洲长期以来都采用的是MPEG技术,考虑到兼容等问题,因此DAB系统中音频编码系统采用的是MPEG Layer II编码方案。不能说MPEG Layer II编码方案有什么不好,但是如果我们综观当前多声道数字音频系统的最新发展,不难看出,有更多更好的方案可以被采用,如在提高声音质量上可采用DTS系统,在增加声道数目上可采用MPEG AAC系统。
7.2
DVB项目是在1993年由220多个世界组织来制定建立的。这些世界组织包括广播业者、制造商、网络管理者和致力于发展数字电视标准的各种组织机构。最早的DVB业务是在欧洲开始的,现在DVB标准不仅是欧洲的数字电视标准,而且它也扩展到亚洲、非洲、美洲及澳大利亚等地区,成为这些地区数字电视的选择标准之一。与此不同的美国采用的是ATSC系统。
在DVB的标准中规定了三个子系统:DVB-S(卫星)、DVB-C(有线)和DVB-T(地面)系统。DVB-S系统是一种单载波系统,是最早实现的DVB标准,它是建立在正交相移键控(QPSK)调制和通道编码(卷积编码和里得-所罗门块编码)的基础之上的,典型的码率为40Mb/s左右。DVB-C系统是以DVB-S系统为基础建立的,不同的是它采用QAM(正交调幅)调制方式,取代了用于DVB-S中的QPSK调制方式。在DVB-C中如果使用64点QAM调制,则可以实现在8MHz的带宽中传输38.5Mb/s的数据。DVB-T系统与以上两者都不同的是采用了COFDM的调制方式,而通道编码则与前两者基本相同。在DVB-T系统中,可以实现在7MHz的带宽中传输19.35Mb/s的数据。
DVB系统的源编码是建立在MPEG-2视频和MPEG-2系统标准上的。同时在DVB中也提供了与立体声相兼容的多声道数字音频系统。同样由于历史及其他一些原因,在DVB音频部分中仍然采用的是MPEG Layer II多声道数字音频系统,在DVB的标准中也同时规定可以采用灵活性更大、质量更高,超过MPEG Layer II MC系统的多声道数字音频系统作为DVB的音频部分。
总之,随着数字广播的不断发展,相信这些已经成熟的各种技术都将有它们各自的用武之地。
8、结语
在本文中,我们主要讨论了当前较流行、较成熟的几种多声道数字音频系统,同时也对它们所采用的编码方法的主要技术做了详尽的分析比较。随着存储媒体及传输带宽技术的不断发展,相信多声道数字音频系统会逐渐取代传统的如CD格式的音频系统;同样应用于多声道数字音频系统中的音频编码及传输方案也会不断的进行更新、发展。更多声道的实现及更高质量的音频系统实现都会成为可能,如新建立的DVD-Audio音频技术中的编码方案已远远超越了PCM音频方式。
总而言之,我们相信在今后的数字广播的发展中,不管是DVB、DAB、数字视频、音频广播,还是ATSC数字电视系统等,都将会采用不受带宽限制(相对而言)、可提供更高质量、更多声道的多声道数字音频系统。
3. 2 AC-3解码过程
解码过程基本上是编码的逆过程。解码器必须同编码数码流同步,检查误码,以及将不同类型的数据(例如编码的频谱包络和量化的尾数)进行解格式化。运行比特指派例行程序,将其结果用于解数据大包(unpack)和尾数的解量化。将频谱包络进行解码而产生各个指数。各个指数和尾数被变换回到时域成为解码的PCM时间样本。
在实际的AC-3解码器中,还包括下述功能:
l假若检测出一个数据误码,可以使用误码掩盖或静噪。
l高频内容耦合在一起的那些声道必须去除耦合。
l无论何时已被重新设置矩阵的声道,必须进行去除矩阵化的过程(在2-声道模式中)。
l必须动态的改变综合滤波器组的分辨率,与编码器分析滤波器组在编码过程中所用的方法
相同。
3. 3 杜比数字AC-3编码数据格式
经过杜比数字AC-3编码器的编码处理,可以将原始的数据PCM信号编码为杜比数字AC-3音频数据流。一个AC-3串行编码的音频数据流是由一个同步帧的序列所组成。如图10所示。
由图可见,每个同步帧包含六个编码的音频样本块(AB)其中每个代表256个新的音频样本。在每个同步帧开始的同步信息(SI)的信头中,包含为了获得同步和维持同步所需要的信息。接着SI后面的是数码流信息(BSI)的信头;它包含描述编码数据流业务的各种参数。编码的音频样本块之后接 着是一个辅助数据(AUX)字段。在每个同步帧结尾处是误码检验字段,其中包含一个用于误码检测的CRC字。一个附加的CRC字位于SI信头中,以供选用。
AB0~AB5的每一块代表一个编码通道,可以被分别独立解码,块的大小可以调整,但总数据量不变。在图中还有两个未标出的CRC,其中第一个位于帧的5/8处,另一个位于帧未。之所以如此安排,目的就是可以减少解码器的RAM需求量,使得解码器不必完全接收一帧后才解码音频数据,而是分成了两部 分进行解码。