研究目的
提出一种基于改进排序的特征增强方法,以解决噪声非线性效应导致的自动说话人或语音识别系统鲁棒性不足问题,从而实现更稳健的说话人识别。
研究成果
所提出的基于排序的特征增强方法通过利用排序序列的自相关性和秩相关对异常数据的不敏感性,显著提升了说话人识别系统在噪声环境中的鲁棒性。该方法在各种噪声条件下均优于现有方法,但其有效性依赖于准确的掩模估计,在高度非平稳噪声中,若能采用更稳健的阈值估计方法和不可靠排序特征的估计算法,该方法的性能还可进一步提升。
研究不足
所提方法的有效性受限于掩模估计方法的准确性——该方法将中心帧划分为可靠与不可靠区域。误检测可能缩减可靠元素集合,或引入噪声主导元素。此外,在白噪声和粉红噪声等高度非平稳噪声类型中,该方法的性能有效性会降低。
1:实验设计与方法选择:
本研究设计了一种特征增强方法,基于信噪比估计将滑动窗口中的中心帧标记为可靠或不可靠。对于不可靠情况,通过基于秩相关的线性时间插值来估算排序。
2:样本选择与数据来源:
使用NOISEX数据库中受加性噪声污染的语音信号。该数据库包含140名说话人,每人200条语句,采样率为16千赫兹。
3:实验设备与材料清单:
研究采用语音处理工具箱VOICEBOX来估算噪声和纯净语音的功率谱。
4:实验流程与操作步骤:
所提方法包括掩蔽估计、基于秩相关的排序特征估算,以及利用标准正态分布将估算排序映射至扭曲特征。
5:数据分析方法:
基于UBM-GMM的开集说话人识别系统,通过识别准确率评估所提方法的性能,并与使用MFCC、特征扭曲及基于线性插值的缺失数据方法的其他系统进行对比。
独家科研数据包,助您复现前沿成果,加速创新突破
获取完整内容