在许多重放系统中,扬声器的数目不能同编码的音频声道的数目匹配。为了重现完整的音频节目需要向下混合。在帧同步中,AB0~AB5中记录着六个独立声道的音频数据,按照AC-3重放时的安排,我们称之为L、R、C、Ls、Rs、LFE。一般用于向下混合的过程中,低音增强LFE通道记录的音频信号主要用于渲染烘托气氛,所以向下混合时,只用其中的L、R、C、Ls、Rs。从图中可以看到编码后的AC-3数据流可以直接传输后经解码器解码为5.1通道音频信息进行重放,也可以向下混合为两个声道信号,然后经不同的解码器得到不同的重放模式。就单一环绕声道(n/1模式)而言,把S称为单个环绕声道。从图中可看出,向下混合提供两种类型:向下混合为Lt、Rt矩阵环绕编码的立体声对;
向下混合为通常的立体声信号Lo、Ro。向下混合的立体声信号(Lo、Ro或Lt、Rt)可进一步向下混合为单声道M,通过两个声道简单的相加即可。如果将Lt、Rt向下混合为单声道,环绕信息将会丢失。当希望需要一个单声道信号时则Lo、Ro向下混合更可取。
用于Lo、Ro立体声信号的一般3/2向下混合方程式为:
Lo=1.0′L+clev′C+slev′Ls;
Ro=1.0′R+clev′C+slev′Rs;
如果接着Lo、Ro被组合成单声道信号重放,有效的向下混合方程式为:
M=1.0′L+2.0′clev′C+1.0′R+slev′Ls+slev′Rs;
如果只出现单个环绕声道S(3/1模式),则向下混合方程式为:
Lo=1.0′L+clev′C+0.7′slev′S;
Ro=1.0′R+clev′C+0.7′slev′S;
M=1.0′L+2.0′clev′C+1.0′R+1.4′slev′S;
其中clev、slev分别代表中央声道混合声级系数和环绕声道混合声级系数,在BSI数据中由Cmixlev、Surmixlev比特字段来指出相对应的值。
用于Lt、Rt立体声信号的一般3/2向下混合方程式为:
Lt=1.0′L+0.707′C-0.707′Ls-0.707′Rs;
Rt=1.0′R+0.707′C+0.707′Ls+0.707′Rs;
如果只出现单个环绕声道S(3/1模式),则向下混合方程式为:
Lt=1.0′L+0.707′C-0.707′S;
Rt=1.0′R+0.707′C+0.707′S;
经过对独立声道的音频信号进行不同的分配及矩阵重组,则实现了AC-3数据流的向下兼容性, 意即通过不同的解码器、解码矩阵方式,可以得到杜比数字5.1声道环绕声、立体声、杜比Prologic、单声道以及杜比的虚拟环绕声方式。其中Lo、Ro与Lt、Rt的最大区别就是Lt、Rt是记录的全部的L、R、环绕声的信息,经过矩阵重解可得到环绕声信息,而Lo、Ro则是将环绕声信息增加支立体声信号中,无法再重现环绕声信号信息。
4、MPEG-2多声道编解码过程
MPEG-2感知编码系统充分利用了心理声学中的掩蔽效应和哈斯效应,利用压缩编码技术,将原始音频信号中不相关分量和冗余分量有效的去除掉,在不影响人耳听觉阈度和听音效果质量上,将音频信号压缩。
4.1 MPEG音频子带编码器的基本结构
感知型子带音频编码器不断地对音频输入信号进行分析。由一个心理声学模型动态地确定掩蔽门限,即在该掩蔽门限之下的多余的噪声是无法为人的听觉系统听到的。由该心理声学模型产生的信息被馈至一个比特分配模块,该模块的任务是将各声道可用的比特以一种优化的方式在频谱范围内进行分配。输入信号还与上述过程并行地被分割到一系列称为子带的频带中。每个子带信号都在经过定
标处理后被重新进行量化,该量化编码过程引入的量化噪声不能超过已确定的对应子带的掩蔽门限。因此量化噪声频谱就与信号频谱进行了动态自适应。“比例因子”和各子带所使用的量化器的相关信息与编码后的子带样值一同进行传输。
解码器可以在不了解编码器如何确定编码所需信息的情况下对码流进行解码。这可以降低解码器的复杂度,并为编码器的选择和解码器开发提供了很大的灵活性。如在心理声学研究上取得了新的结果,则更高效率和更高性能的编码器可在与所有现有解码器完全兼容的条件下得以应用。这一灵活性目前已有了成功的例子,现在最高技术水平的编码器的性能已超过了标准化过程中使用的早期编码器。
4.2 层
MPEG音频标准包括了三种不同的算法,称为层。层数越高,相应可达到的压缩比就越高,而复杂度、延时及对传输误码的敏感度也越高。层II专门对广播应用进行了优化。它使用了具有32个等宽子带划分的子带滤波,自适应比特分配和块压扩。单声道的码率范围为32-192 kbps,立体声为64-384 kbps。
它在256 kbps及192 kbps相关立体声条件下的表现十分出色。128 kbps(立体声)条件下的性能在许多应用中仍可接受。
4.3 MPEG-2在多声道音频方面的扩展
ITU-R工作组TG10-1在关于多声道声音系统的建议方面进行了工作。该项工作的主要成果就是建议BS.775,其中说明一个适当的多声道声音配置应包含五个声道,分别代表左、中央、右、左环绕、右环绕声道。如果使用了一个作为选项的低频增强声道(LFE),则该配置被称为“5.1”。五声道配置也可表示为‘3/2’,即三个前置声道及两个环绕(后置)声道。
MPEG已认识到应根据ITU-R建议775来增加音频标准的多声道能力的必要性。
这是在第二阶段完成的,由此产生了MPEG-2音频标准。在多声道声音方面的扩展支持在一路码流中传输五个输入声道、低频增强声道以及7个旁白声道。该扩展与MPEG-1保持前向及后向兼容。前向兼容性意味着多声道解码器可正确地对立体声码流进行解码。后向兼容性则意味着一个标准的立体声解码器
在对多声道码流进行解码时可输出兼容的立体声信号。
这是通过一种真正的可分级方式实现的。在编码器端,五个输入声道被向下混合为一路兼容立体声信号。该兼容立体声信号按照MPEG-1标准进行编码。所有用于在解码器端恢复原来的五个声道的信息都被置于MPEG-1的附加数据区内,该数据区被MPEG-1解码器忽略。这些附加的信息在信息声道T2、T3及T4以及LFE声道中传输,这几个信息声道通常包含中央、左环绕和右环绕声道。MPEG-2多声道解码器不但对码流中的MPEG-1部分进行解码,还对附加信息声道T2、T3、T4及LFE解码。根据这些信息,它可以恢复原来的5.1声道声音。
当相同码流馈送至MPEG-1解码器时,解码器将只对码流的MPEG-1部分进行解码,而忽略所有附加的多声道信息。由此它将输出在MPEG-2编码器中经向下混合产生的两个声道。这种方式实现了与现有的双声道解码器的兼容性。也许更为重要的是,这种可分级的方式使得即使在多声道业务中仍可使用低成 本的双声道解码器。考虑到所使用的其它所有编码策略,多声道业务中的双声道解码器本质上就是一 个对所有声道进行解码并在解码器中产生双声道向下混合信号的多声道解码器。如图14所示。
就其包含了不同的可由编码器使用以进一步提高音频质量的技术而言,该标准是具有很大灵活性的。
4.4 定向逻辑兼容性
如果源素材已经经过环绕声编码(如Dolby环绕声),广播业者可能希望将它直接播送给听众。一种选择是将该素材直接以2/0(仅为立体声)模式播送。环绕声编码器主要是将中央声道信号分别与左右声道信号同相相加,而将环绕声道信号分别与左右声道信号反相相加。为能对这些信息正确解码,编解码器必须保持左右声道彼此之间的幅度和相位关系。这在MPEG编码中是通过限制强度立体声编码只能在高于8kHz的频率范围内使用而得以保障的,因为环绕声编码仅在低于7kHz的范围内使用环绕声道信息。如图15所示。
图15 使用MPEG-1音频播送环绕声素材
当传输多声道信息时,与现有(专利的)环绕声解码器的兼容性可通过几种手段得以实现。多声
道编码器在工作时使用一个环绕声兼容的矩阵。这可以使立体声解码器能够接收环绕声编码的信号,
并可选择将其传送给环绕声解码器。一个完整的多声道解码器将对所有信号进行再变换,以获得原来
的多声道表现。MPEG-2多声道语法支持这种模式,进而也为DVB规范所支持。如图16所示。
4.5 MPEG-2在低采样率方面的扩展
除了在多声道方面的扩展外,MPEG-2音频还包含了MPEG-1音频在低采样率方面的扩展。该扩展的目的是以一种简单的方式获得改进的频谱分辨率。通过将采样率减半,频率分辨率就提高了两倍,但时间分辨率则劣化了两倍。这可使许多稳态信号获得更好的质量,而对一些在时间特性上要求严格的信号而言质量则下降了。半采样率的使用是在码流中通过将每帧帧头中的某一比特,即ID位置设为“0”来表示的。而且,可用码率表也进行了修改,以便在低码率条件下提供更多的选择,每个子带可用的量化器也为适应更高的频率分辨率作了修改。
5、先进音频编码(Advanced Audio Coding-AAC)
MPEG AAC(先进音频编码)是于1997年成为ISO/IEC标准的(参见ISO/IEC 13818)。AAC是以新建立的MPEG-4标准中的时域到频域映射的编码算法组成的。AAC从提高效率的角度出发,放弃了与原MPEG-1解码器的后向兼容性,这也是该算法在开始时被称为NBC的原因。