基于WaveNet的端到端语音合成方法

【摘要】 针对端到端语音合成系统中Griffin-Lim算法恢复相位信息合成语音保真度较低、人工处理痕迹明显的问题,提出了一种基于WaveNet网络架构的端到端语音合成方法。以序列映射Seq2Seq结构为基础,首先将输入文本转化为one-hot向量,然后引入注意力机制获取梅尔声谱图,最后利用WaveNet后端处理网络重构语音信号的相位信息,从而将梅尔频谱特征逆变换为时域波形样本。实验的测试语料为LJSpeech-1.0和THchs-30,针对英语、汉语两个语种3.02,在合成自然度方面优于采用Griffin-Lim算法的端进行了实验,实验结果表明平均意见得分(MOS)分别为3.31、到端语音合成系统以及参数式语音合成系统。