
2.4 MPEG音频编码标准
1988年国际标准化组织(ISO)和国际电工技术委员会(IEC)建立了在信息技术领域的联合技术委员会,该委员会的第11工作组称为运动图像专家组(Motion Picture Experts Group,MPEG),负责起草制定数字音频、视频信号的国际编码标准。到目前为止,已先后公布了MPEG-1、MPEG-2和MPEG-4等用于数据率压缩的国际标准。
2.4.1 MPEG-1 音频编码标准
MPEG的第一阶段的成果MPEG-1标准,编号为ISO/IEC11 1 72。该标准适用于视频、音频(伴音)信息经压缩后的总数据率上限为1.5Mb/s,可以满足在CD-ROM、硬盘、可写光盘、数字音频磁带(DAT)等介质上存储,也可以在局域网、ISDN(综合业务数字网)上进行经压缩的数字视频和音频信号的传输。
ISO/IEC11 1 72标准于1993年正式公布实施。这里,我们着重讨论ISO/IEC11 1 72-3 音频编码部分。
MPEG-1音频编码标准,适用于32kHz(在数字卫星广播DSR中应用)、44.1kHz(CD中应用)和48kHz(演播室中应用)等取样频率。声音信号的工作模式有单声道、双声道(两个单声道)、立体声和联合立体声。
在MPEG-1音频编码标准中,有三种编码算法系列,称为三种Layer(层)。Layer1、Layer2和Layer3之间的关系是:
Layer1:是MUSICAM(掩蔽型通用自适应子带综合编码与复用)编码方法的简化版本。
Layer2:是MUSICAM编码方法的标准版本,因此,欧洲人通常称MPEG-1音频编码方法Layer2为MUSICAM编码方法。
Layer3:是MUSICAM与ASPEC(自适应频谱感知熵编码)的结合。
三层之间的关系是,随着层号的增加,编码器的复杂性也增加,信号处理过程(编码和解码)的时延也增加,这可以说是缺点;但是,最大的优点是能力增加。所谓能力增加,体现在两个方面:一是在保证相同的质量下,可以有更低的码率;二是在相同的数据率下,可以有更好的质量。
三层之间解码器有向下兼容的特性,即层号高的解码器可以对用本层和低层编码算法进行编码的数据流解码。
MPEG音频标准对每种Layer定义了编码声音信号的格式和在解码器中这些格式的处理。在标准中没有确定解码器,是考虑到允许将来编码方法的继续发展,重要的只是每种MPEG编码器都要遵守统一的数据格式。
所有的Layer在确定短时间频谱时都使用相同的滤波器组(有32个子频带的多相滤波器组,每个子频带宽750Hz)。Layer3 增加了一个MDCD(改良的离散余弦变换),这样做,使频率分辨率提高18倍。
三种Layer在它们的比特流中使用了相同的“帧头”,它们的比特流既包括对比特差错反应很敏感(即一旦出现比特差错,便有很大的干扰作用)的部分,也包括对比特差错反应不敏感的部分,如频谱样值成分的数据。
所有的Layer都支持在它的音频数据流中,插入与节目有关的信息(辅助数据);所有的Layer使用通用的取样频率(32,44.1和48kHz),可以以相似的数据率工作,不同的Layer适合于不同的应用:
Layer1:32—448kb/s,用于DCC、VCD;
Layer2:32—384kb/s,用于数字音频广播(DAB),电缆和卫星广播(ADR)、电缆和卫星电视(DVB)、计算机多媒体;
Layer3:32—320kb/s,用于通过ISDN传送广播节目、Internet网声音点播、MP3光盘存储等。
Layer的选择当然取决于应用的要求。首先要注意应用中可提供的比特率,因为各Layer支持确定的数据率的特别有效性,使用不同的Layer,可以实现不同的声音信号数据压缩程度。如表2-4-1所示是不同Layer的比较。
表2-4-1 不同Layer的比较

2.4.2 MPEG-2音频编码标准
MPEG-2音频编码标准文号为ISO/IEC13818-3,它是对MPEG-1 音频编码标准的发展和扩展。发展和扩展表现在两方面:一是多声道环绕声编码和多语言节目编码;二是低取样频率(LSF)低比特率编码。MPEG-2标准于1994年11月公布。
(1)多声道环绕声编码和多语言节目编码
众所周知,重放立体声节目的起码条件是双声道。但是,双声道立体声并不是重放立体声信号的最好形式,最好的方法是采用多声道环绕声,能最好体现出现场感,立体(空间)感。此外,电视伴音也很需要用多种语言,以满足不同的要求。
前面曾经谈到,MPEG-1 音频编码的最大总数据率为384kb/s。MPEG-2 音频编码标准就是解决在不超出384kb/s的数据率下,如何实现多声道环绕声(5+1 声道或5.1 声道)的编码与多语言(多至7种)的编码。
(2)MPEG-2低取样频率(LSF)低比特率编码
在MPEG-1音频编码标准中,虽然也给出了很宽范围的数据率,但编码算法并不是对每种数据率都是最佳的。此外,对于某些应用来说,传送的信号不需要很宽的频率范围,不需要像MPEG-1中那样高的取样频率。因此,可以将取样频率降低,取样频率降低后,每秒的样值数量降低,数据率就降低。此外,取样频率降低,总信号带宽降低,子带带宽也相应变小,可以更有效的实现压缩(原理后文详述),进一步使编码后的总数据率降低。
在MPEG-2低取样频率低比特率编码方法中,使用的取样频率可以为16kHz、22.05 kHz和24kHz,是MPEG-1的一半,因此也称半取样频率。
需要指出的是,MPEG-2音频编码标准也有Layer1、Layer2和Layer3 之分。如表2-4-2所示是MPEG-1和MPEG-2-LFS Layer2可提供的数据率对比。它们各自都可提供14种不同的数据率,编码器提供的不同数据率通过4比特编码数据来标记出。
表2-4-2 MPEG-1和MPEG-2—LSF的数据率

2.4.3 ISO/IEC13818-7
前面谈到的MPEG-2多声道环绕声编码标准有两个限定条件:一是不突破384kb/s的总数据率,很难保证有较高的质量。对5个全带宽声道,只有使用640~896kb/s的数据率,才能提供高质量的多声道编码信号。二是要考虑若干个兼容条件,即能够与已有的MPEG-1系统向下兼容。
ISO/IEC13818-3公布后,运动图像专家组接着又制定新的多声道编码标准,仍属于MPEG-2的一部分,称为MPEG-2非向下兼容音频标准,后来更名为MPEG-2 先进音频编码(MPEG-2 AAC),使编码效率和质量进一步提高。1996年的测试表明,在5个全带宽声道总数据率为320kb/s的情况下,就能达到与原版不可分辨的音频质量,满足了ITU-R提出的要求(384kb/s或更低)。
1994年4月,MPEG-2 AAC正式成为一个国际标准,文号为ISO/IEC13818-7。
AAC(Advanced Audio Coding—先进音频编码)方法把高分辨率滤波器组、预测技术、霍夫曼编码的编码效率和其他功能结合在一起,在很低数据率时实现高质量音频信号的传输。
MPEG-2 AAC系统默认配置方式有单声道、双声道和5+1声道[其中的1声道指低频效果增强(LFE)声道,通常带宽在200Hz或150Hz以下]。
此外,AAC系统支持从8kHz到96kHz的取样频率。如表2-4-3所示是MPEG-2 AAC取样频率和相应的最大数据率。
表2-4-3 MPEG-2 AAC取样频率和最大数据率

根据不同的应用,AAC可提供三种类型供选择:主要(或基本)类型、低复杂度类型和可变化取样频率类型。类似于MPEG-1和MPEG-2中的三种Layer。
2.4.4 MPEG-4音频编码标准
MPEG-4编码标准于1999年正式公布实施,声音编码部分的文号为ISO/IEC 14496-3。MPEG-4针对不同的应用,根据具体信号的特点,提供相应有效的编码算法。
MPEG-4包含对人工合成和自然两种不同声音素材进行压缩编码的多种算法。在自然声音信号压缩方面,MPEG-4支持的数据率为2~64kb/s。MPEG-4是完全新的编码方法,提供新的可能性,支持新功能:
*由内容决定的交互性;
*通用存取(通过完全不同的网络);
*编码效率的提高。
MPEG-4支持不同质量要求的信号等级:
*HiFi质量的音乐(上限频率至15~20 kHz),每声道64kb/s可达CD质量;
*中等质量的音乐(上限频率至5~11kHz),每声道16~48kb/s;
*宽带语言(上限频率7kHz),每声道16~32kb/s;
*电话质量的语言(3kHz),4~8kb/s;
*很低比特率的语言(2kb/s);
*合成音乐(低于16kb/s);
*合成语言。
在应用方面,原有的MPEG-1和MPEG-2是以声音信号的记录存储和广播等用途为主,MPEG-4则增加了通信用途,还用于各种传输线路形式及连接方式,以各种数据率传送信息。
MPEG-4音频编码器中,主要包括T/F(时间/频率)变换编码、CELP(代码激励线性预测)编码、参数编码[包括以2~4kb/s语言编码为目标的谐波矢量激励编码(HVXC)和以6-16kb/s音乐编码为目标的独立线编码(IL)]、合成与自然混合编码(SNHC)。在T/F编码中,包含两种方式,一种基于MPEG-2 AAC(先进音频编码),另一种基于Twin VQ(变换域加权交错矢量量化)。
MPEG-4音频编码标准有两个版本。MPEG-4音频编码标准的第一版本是在1998年10月起草的并且提供了所谓“工具”模块,对自然与合成音频对象进行编码以及将这些音频对象组合成一个音频景象。由于MPEG-4标准化特别短的时间安排,只考虑了在标准的第一版本中的模块,还有许多模块没有固定。然而由于在第一版本没有覆盖的这些模块提供重要的功能,MPEG决定继续开发这些模块作为标准的扩展,于1999年12月起草了MPEG-4音频标准的第二版本。第二版本是完全向下兼容的第一版本的扩展。如图2-4-1所示是两种版本之间的关系。

图2-4-1 MPEG-4版本 1和版本 2之间的关系
不言而喻,一个MPEG-4音频解码器要实现所有模式并用于很多应用,那就会有相当高的复杂性,因此定义了所谓的“型”与“层”。一个型规定一组允许的模型,同时,最大的复杂性,即在解码器中所需要的计算能力和存储量,通过型的不同层来限制。据此,尽管由于MPEG-4标准的灵活性和复杂性,也可以实现良好的内部可操作性。
(1)MPEG-4音频标准版本1中定义的四种型:
① 语言型包含所有用于自然和合成语言信号编码的模型:CELP(代码激励线性预测)、HVXC(谐波矢量激励编码)和TTSI(文本到语言接口)。
② 分级型是建立是在语言型的基础上,补充了用于任意声音信号编码的模型:AAC LC(先进音频编码 低复杂度)、AAC LTP(AAC长期预测)、AAC可分级和Twin VQ(变换域加权交织矢量量化)。
③ 合成型包含所有用于产生合成语言和合成声音信号的模型:SAOL(结构音频管弦乐队语言)、SASBF(结构音频样品库格式)和TTSI。
④ 主型包含MPEG-4音频版本1的所有模型。
(2)MPEG-4音频标准版本2中定义的四种附加型:
① 高质量音频型包含用于语言信号和声音信号编码的低复杂度的模型:CELP、AAC LC、AAC LTP和AAC可分级。
② 低延时音频型包含用于具有低的系统延时的语言信号和声音信号编码的模型:AAC LD(AAC低延时)、CELP、HVXC和TTSI。
③ 移动音频互联网型仅包含用于音频信号编码的以下模型:AAC LC、AAC可分级、Twin VQ、AAC LD和BSAC(比特切片运算编码)。
④ 自然音频型包含版本1和2用于自然语言和声音信号编码的所有模型以及TTSI。在以上所有四种型中可以应用用来改善差错强壮性的模型。
如图2-4-2所示是声音信号数据压缩编码方法的基本结构。这里,要追求一个尽可能高的编码效率,即解码信号的主观质量和应用的数据率之间尽可能好的关系。为了实现高的编码效率,不仅信号源的特性而且接收者的感觉特性,即人的听觉特性,使用冗余压缩和不相关压缩。

图2-4-2 音频编码器(a)与解码器(b)原理方框图
按照信号的形式和可提供的数据率,近年来建立了不同的源模型和感觉模型。
(1)语言编码方法主要是充分利用了在人类发声中语言产生的特殊模型,然而仅应用了简单的感觉模型。
(2)任意信号的编码方法主要充分利用了人耳的掩蔽效应,然而只应用了相当普通的信号模型,这样就可以在假设短暂时间是固定的情况下进行频谱的分解。
基于特殊的源模型,在语言信号编码时,在很低数据率(低于24kb/s)的情况下,语言编码方法与普通的编码器相比,提供明显高的编码效率。另一方面,语言编码器在音乐信号时仅能达到较差的质量,因为这种信号不满足关于信号源的假设。除了已经建立的语言和音频编码方法外,近年来还开发了编码方法的一种新形式,它基于抽象的信号模型,它特别适合于很低的数据率。基于应用的声音或语言信号的参数的描述,它被称为“参数编码方法”。
因为MPEG-4音频应该覆盖很大的应用和数据率范围,有必要强调,将语言编码方法和普通的音频编码方法结合在一起。此外,对于合成语言和声音信号来说通常是有效的,只是要传送合成器控制所需要的信息,以便在接收机合成原始的声音信号。
典型的声音信号是由许多单一的信号所组成。因此,MPEG-4音频应该有可能对很多个单一的信号(称为音频对象),相互独立的进行编码和传送。在接收机中,这些音频对象借助一个也同时传输的情景描述,组合成一个完整的音频情景。同时,音频对象可以通过比如滤波或回声效应来处理。
如图2-4-3所示是一个完整的MPEG-4音频解码器方框图。这里涉及到了在MPEG-4标准的“系统”部分中很多对象的复合以及情景描述。

图2-4-3 一个完整的MPEG-4音频解码器电路方框图