还记得第一次收听调频收音机吗?还记得在多年收听磁带之后第一次收听CD吗?高清话质电话为我们带来的就是这样的感受。随着VoIP的不断商用化,系统开发商和服务供应商的重点也由提供VoIP服务转向提供更高质量的VoIP服务。借助高清电视的强大营销攻势,目前HD-sound已经成为被广泛接受的宽带语音品牌。这使服务供应商能够通过自己的IP电话家用网关提供清晰的音质。传统的“窄带”电话在语音清晰度和数据传输速率方面实现了折中,声音带宽为300Hz~3.4kHz。相比之下,HD-sound采用了宽带技术,传输带宽为50Hz~7.0kHz或者更高。这不仅大大提高了通话的清晰度和自然度,而且还大大提高了MP3和网络收音机等其他多种音频应用的语音清晰度和自然度。本文试图阐述电话实现高清话质所面临的障碍,并说明其市场潜力。
高清语音:宽带电话
“宽带”电话的传输带宽范围为150Hz~6.3kHz。尽管这不是CD带宽(20Hz~20kHz),但与窄带相比,增加的宽带大大提高了语音的清晰度。大约20年前,宽带电话曾针对采用G.722编解码器的ISDN实现了标准化,但从未真正获得广泛部署。不过G.722在新闻领域却得到了应用,G.722宽带经常被用于从遥远的地点传输语音,代替语音质量较差的标准电话。
由于IP电话已具备针对窄带语音压缩算法的强大信号处理功能,因此可轻易通过IP电话的语音引擎来处理宽带编解码器,若模数转换器和数模转换器支持16kHz采样率,则IP电话上的宽带电话只需相对较低的额外开销。其他推动宽带电话发展的因素还包括全新的DECT标准CAT-iq,该标准还指定 G.722为高清语音所需的编解码器。
PC声卡支持8kHz、16 kHz、32kHz、44.1kHz和48kHz的采样率,通常具备宽带编解码器所需的处理功率。“Skype”等基于PC的软电话应用已在市场广泛部署。多数企业的IP电话(如西门子的OpenStage系列)已经支持宽带。企业宽带市场就是这种理念的出色证明,原因是更容易控制终端的硬件和软件。宽带需要通话双方都具备能够处理宽带的硬件,话机立即转至可用的最佳编解码器。
过去,VoIP不得不面临性能不可靠的问题。早期只有勇敢的先驱敢于通过网络建立语音连接,而目前宽带用户已纷纷快速采用语音服务供应商提供的全新产品。以前,电话在音质和价格方面不得不进行折中。今天,VoIP音质前所未有地大幅度提升,可轻松与POTS(简单老式电话)服务媲美。由于客户端设备的可用带宽和处理功率正逐步实现标准化,因此采用更高的带宽大幅提高音质就显得非常实际和刻不容缓。这是供应商提供特色服务的解决之道。VoIP不再仅仅是VoIP。HD-Sound使它成为物超所值的畅销技术。POTS电话通话与HD-Sound通话相比,不仅声音更细,而且基本保持一个声调。HD Sound可提供“更加温暖”的通话,能捕捉到我们语音当中所有细微差别。现在将S误听为F的经历早已成为历史。HD Sound可将话音质量提高几倍。目前将该技术向更广大的用户推广还存在许多相关问题。
图1 传输频谱图
在频谱分析图表中,我们很容易看到HD-Sound具备较大的传输频谱范围。HD-Sound的传输频谱包括比窄带电话传输频谱更低和更高的音调,使宽带通话者能够获得非常出色的用户体验。
图2对MOS(平均意见得分)值的分析深刻说明了宽带是如何被主观感知的。窄带G.729A的多数MOS值约为 3.5,而高清语音的MOS值至少比其高出30%,达到4.5。
图2 窄带与宽带编解码器的平均意见得分
要想优化宽带的部署,话机厂商(固话和无绳电话)必须遵守一些重要的规定:电声组件,尤其是电话听筒或免提扬声器必须能够在各自的装置内,以较低的失真度和较高的逼真度重新生成宽带的整个频率范围。这将为设备设计者,尤其是无绳话机或手机等小型设备的设计者带来巨大挑战。一流的音质需要付出成本,但巨大的市场将会带来额外助益。
建议将免提电话封装起来,目的是避免室内的回声和增强低频效果,例如被完全封闭起来的家用高保真扬声器。任何VoIP电话(窄带或宽带)在实现全双工性能时,最难解决的是时延问题。人耳对话音后的回声是不敏感的,否则我们无论在任何室内都将听到很强的回声。但是话音与回声之间的时延越长,人耳对回声的感知就会更加灵敏。这就是我们在教堂能够始终听到回声的原因。标准IP网络分组时延可能会超过100ms——相当于一个大教堂的时延。因此需要额外采取措施减少回声。消除话机内的回声如同消除进入耳内的回声一样。通过估计、计算和减少麦克风信号产生的回声,达到取消回声的目的。这是一项非常艰难的工作,因为它必须适用于话机存在的任何环境。
高清语音帮助拓展市场
高清语音为系统厂商和服务供应商进入全新的市场提供了大量机会。
1交互式语音响应
您能想象利用预先录制的语音样本,借助通话服务预定机票吗?一定很难想象得到。目前的主要语音激活服务几乎让人发疯,它们甚至无法辨别培训话语的轻微增量。采用宽带技术可以更加轻松地捕获人类语音的细微差别,使语音激活服务成为潜力巨大的可行服务。在不必与任何人讲话的情况下,我们不仅可升级宽带或话机服务,而且可预定机票、酒店或火车票。语音识别系统也将受益于不断增加的带宽,提供更加出色的识别率,尤其是更加出色地识别齿擦音。(齿擦音是我们讲话时发出的S音,因此在窄带通话中,常常会把F字母误听为S字母)
2文本-语音转换(TTS)
系统将标准语言文本转化成语音(采用合成语音)。语音合成器的质量是通过合成语音与人类语音的相似度和可理解度评定的。易懂的文本-语音转换程序可使视障人士或阅读障碍人士通过电话或PC收听书写的作品。
● 自动转换:实时将语音样本转换成文本
● 汽车语音识别:通过语音控制汽车的各种功能(雨刮器、收音机、车窗等,但不能通过语音驾驶车辆!!)
● 语音生物识别:说话人验证。工作车间或任何需要某种身份验证的场所可以采用这些应用。
● 口述。
● 免提计算:适用于残障人士的PC命令语音识别。
● 家庭自动化:通过语音控制通常需要开关控制的装置,例如关闭百叶窗和电灯、打开暖气装置。
● 医疗转录。
现代医学的口述记录使医生不必花费大量时间为财务结算创建文档,而是把更多的时间用来满足患者的需求。通过计算机和互联网技术,越来越多的现代化文档创建方法得到了应用。语音识别(VR)是这些划时代技术的代表之一。语音识别的速度是每分钟200个字,准确率高达99%,使医生从传统的抄写服务中解放出来。
目前的宽带连接可为家庭终端用户提供下行宽带。为此DECT论坛(http://www.dect.ch/)推出了全新无绳电话标准CAT-iq,进一步挖掘宽带在VoIP终端领域的潜力。预计将推出下列应用:
高清无绳电话—各大厂商正在积极向市场推出支持高清语音的全新产品。正如上文所述,这意味着升级话机,使其采用改进的麦克风和扬声器,充分发挥宽带编解码器的功效。
宽带电话会议—采用改进的硬件可增加多种新功能,如让第三方参加语音清晰的电话会议,为用户带来一种全新的体验。
网络收音机—作为推出的一种全新服务,未来的CAT-iq产品将支持News-Tickers等产品和更加引人注目的高清网络收音机。这有望成为家用VoIP的杀手级应用,它将互联网的强大功能与高清音质有机地结合起来。现在,身在澳大利亚的爱尔兰人和身在慕尼黑的中国人在地下室不用PC就可分别收听Radio Cork和上海FM电台节目。
音频流媒体—CAT-iq将使无绳设备厂商和服务供应商进入原来由高保真专业厂商占据的市场。带有DECT接收器的音频扬声器将成为家庭内部甚至家庭内不同楼层之间音频内容传输的理想解决方案。该应用设备不仅具备稳定的空中接口,而且具备最佳的功耗。
总结
处于该产业链上的所有人都会从高清语音的发展中受益;最重要的是终端用户将获得一种永远不想失去的全新体验。