基于非负矩阵分解和长短时记忆网络的单通道语音分离

【摘要】 为了解决语音分离中非负矩阵分解(non-negativematrixfactorization,NMF)、深度神经网络(deepneuralnetwork,DNN)等算法没有考虑语音时序相关性的问题。结合NMF和长短时记忆网络(longshort-termmemory,LSTM)算法提出NMFLSTM单通道语音分离算法:将语音信号的幅度谱作为模型的输入特征,通过训练NMF和LSTM模型获得目标语音的基矩阵和系数矩阵,并对其结果进行语音重构最终实现语音分离。实验结果表明:相比于未考虑语音时间连续性的算法,使用NMFLSTM算法分离语音的客观语音质量评估值(perceptualevaluationofspeechquality,PESQ)有明显提升,其最大值超过3.1,获得良好的分离效果。