基于隐马尔科夫模型的语音合成
本文对基于隐马尔科夫模型的语音合成进行了详细的描述,它最近已经重新被证明是在合成语音上是非常有效地。这种方法的主要优点是它在对于改变说话人的个性,情感和说话人的风格上具有很大的灵活性。
隐马尔科夫模型(HMM)是一种统计参数语音合成方法,它可以生成自然和有适当韵律的合成语音。HMM 代表了一个音素序列,也代表了各种用相同的方式去进行单元选择的语言规格的背景。从 HMM 中生成的声学参数根据语言规格被选出来用于驱动一个声码器,它是一个简化的语音生成模型。在这个模型中,语音由声道参数和机理参数表示,最终产生一个语音波形。
基于 HMM 的语音合成系统包含两个主要组成部分:文本的分析和语音波形的生成。在文本分析部分,所给的输入文本被转换成由如因素这类元素组成的语言规范。在语音波形生成部分,是从已经产生的语言规范中生成语音波形。
从给定文本生成语音波形的方法已经从基于知识和规则的发展为数据驱动的。在 20 世纪 70 年代初期,语音波形生成部分为每个因素应用非常低维的声学参数,例如共振峰,它对应为声道共振的参数。在 20 世纪 80 年代,语音波形生成部分应用了一个因素单位的小型数据库叫做“双音素”(一个因素的后半部分加它下一个因素的前半部分),根据给定的语音序列级联它们,通过信号处理的方式,例如线性预测分析,划成单元。在 20 世纪 90 年代,随着计算机技术的能量和资源的增长也随着语音和语言学资源的增加,更大的语音数据库被收集并且应用于选择更加合适的语音单元,这些语言单元匹配音素和其他语言背景,例如词重音,音高重音,和为了生成高质量自然和有适当韵律的合成语音的部分语音信息。
基于 HMM 的语音合成方法限制了输出语音与初始录音的风格一样,因为录取语音选出的部分正常的完成没有任何修改。如果我们需要用这种方法带有各种说话风格和情感去实现合成语音,那么含有不同说话风格的很大的数据库则是必要的。IBM 的立体合成就是一个很好地例子。但是这么大的数据库,它有很大的指数以及带有各种说话风格和情感的大数量的语音的进一步的录制将会耗费很大的成本和时间。
因此,基于 HMM 的语音合成方法是一个非常有前途的方法,它可以生成自然和有适当韵律的合成语音,并且可以带有各种说话风格和情感。该方法已经在学术和商业组织中被广泛应用,并且在语音合成研究中的主要话题。
本文还讨论了基于 HMM 的方法和在过去占据主导地位的更传统的单位选择方法之间的关系。对关乎未来发展的先进技术进行了描述。