融合多维时频特征的环境声识别

【摘要】 针对单一的时频特征无法完全表征声信号在时频域上演变过程,从而导致环境声识别性能差的问题。首先,以对数梅尔和耳蜗时频特征为基础,提出一种在时、频两个维度上的一阶差分特征,用于表征声信号在时频域中能量变化的动态关系;然后融合对数梅尔、耳蜗及其一阶差分特征形成多维时频特征;最后,构建卷积神经网络充分提取更具判别性的特征信息,并使用DS证据理论进行信息融合,提出一种新的环境声识别模型。在ESC-10和ESC-50数据集上分别达到了96%与85.3%的识别率,比先进的DS-CNN模型分别提升了3.4%和2.2%,比人耳识别性能分别提升0.3%和4%。实验结果表明,所提出的模型在环境声识别任务能够达到较好的识别效果。