基于 TACOTRON 端到端语音合成模型的改进方案
一:背景
语音合成就是将任意文本转换成语音的技术,即 TTS。个典型的语音合成系
统的前端部分主要是对输入文本进行分析并提取语音建模需要的信息,具体包括
分词、词性标注、多音字消歧、字音转换、韵律结构与参数的预测等等。后端的
部分读入前端文本分析结果,并结合文本信息对输出的语音进行建模。在合成过
程中,后端会利用输入的文本信息和训练好的声学模型,生成语音信号。根据所
采用的方法和框架不同,现阶段的语音生成器主要分为波形拼接、参数生成和基
于波形的端到端统计合成这三种形式。现阶段语音合成发展的主要目标是进一步
提高合成语音的清晰度与自然度、降低技术的复杂度等方面。
TACOTRON 是一个直接从文本合成语音的神经网络架构,它将各模块放入
一个黑箱,我们无需花费大量时间了解 TTS 中的各模块或者专业领域知识,可
直接通过深度学习训练出一个 TTS 模型。TACOTRON 作为集成的端到端 TTS
系统具有许多优点:它可以减少繁重的特征工程需要,更容易对各种属性(如说
话者或语言)或情绪等高级功能进行丰富的调节,对新数据的适应也更容易。
TACOTRON 模型声码器部分使用 Griffin-Lim 算法,会产生特有的人工痕迹并
且合成的语音保真度较低。
Griffin-Lim 算法是在仅已知幅度谱、未知相位谱的条件下重建语音的算法。
Griffin-Lim 算法将 Seq2Seq 的输出转化成被合成为波形的目标表达,使得估计得
到的信号傅里叶变换的幅度值与原始信号傅里叶变换的幅度值的平方误差达到
最小。通过迭代重构信号的相位信息和已知的幅度信息,得到语音信号的估算值。
图 1 原始波形与重构波形对比
评论0