·上一文章:ucos-ii应用在嵌入式智能视觉监控系统中
·下一文章:基于SPI方式DSP外部E2PROM接口设计
2 系统的算法与软件设计
说话人识别系统的实现方案如图3所示。
输入的模拟语音先通过预处理,包括预滤波、采样、量化、加窗、端点检测、预加重等。语音经过预处理后进行特征提取。在训练阶段,对提取的特征进行相应的处理后就可以获得参考模型。识别阶段,语音通过同样的通道获得特征参数,生成测试摸型,之后将测试摸型与参考摸型进行匹配,从而根据判决逻辑获得判决结果。
2.1 语音信号的端点检测
语音信号的端点检测目的是去除语音信号中的噪声段。端点检测从很大程度上影响到识别率。常用方法有短时能量法,短时过零率法和双门限法等。本系统选用双门限法,实验表明,效果优于前两种方法。在双门限方法端点检测中,阈值的选择尤为关键,该系统的语音采样频率设为8 kHz,语音分帧为每帧80个点。经过多次实验,这里短时能量低阈值通过式(3)的动态方式得到,高阈值设为低阈值的5倍。而过零率的阈值选取应充分考虑到噪声的影响,通过大量实验发现系统中噪声的过零率一般不超过5,所以对过零率的阈值选取为25,取得了很好的效果,准确率达到95%以上。
ITU=0.03(amp_max-amp_min)+amp_min (3)
在端点检测过程中有时会遇到突发性的干扰噪声,这种噪声持续时间很短,一般小于5 ms。为了消除这种干扰,这里用检测后的起止长度判断它是不是语音。如果所检测到的语音长度足够的短,则可以把它当成是噪声。
2.2 特征参数的提取
语音信号的特征提取是说话人身份识别的难点。能否用相对简单的方法提取出一种最能体现说话人个性信息的特征将成为以后研究的方向。该系统中用的是能体现人耳听觉特性的Mel倒谱系数(MFCC)。