将AM-FM效果结合到语音中以实现概率声管模型资源-CSDN文库

22 浏览量 2021-03-14 23:32:11 上传评论收藏 258KB PDF 举报

在本文中，作者Yang Zhang、Zhijian Ou、Mark Hasegawa-Johnson提出了一种将幅度调制-频率调制（AM-FM）效果结合到语音中，以实现概率声管模型（Probabilistic Acoustic Tube, 简称PAT）的方法。这一研究是针对语音信号处理领域的重要进展，旨在提升各种语音应用的性能。PAT模型是一种概率生成模型，它通过模拟人类声道的发音过程来生成语音信号。之前的研究中，PAT模型存在一个缺陷，即忽略了语音中的AM-FM效应，这是在发音（voiced speech）时常见的且不可忽视的效应。 AM-FM效应是指语音信号在发声时，声带振动产生的基频（F0）对声音的调制作用。在实际的语音信号中，这种调制作用表现为声带振动的幅度和频率对声音信号的连续调制。如果忽略了这一效应，语音模型便不能准确地反映真实语音的复杂性。因此，本文的创新之处在于，通过基于贝叶斯谱估计方法开发的概率模型，显著改善了PAT模型在有AM-FM效应时的发音语音建模。文章的摘要部分简要介绍了PAT模型，并强调了AM-FM效应在发音语音中的重要性。同时，作者提出了改进后的模型，并通过实验验证了新模型在考虑AM-FM效应的情况下，能更精确地拟合发音语音频谱。在引言部分，文章概述了完整语音模型对于语音处理任务的重要性。例如，在语音分析领域，需要联合估计基频和频谱包络。在语音合成领域，联合建模声门源（glottal source）和声道能够提高参数化语音合成的质量。在信号分离领域，完整的语音模型可以更准确地定义干净信号的样本空间，从而更好地恢复干净的语音。文章还提到了其他一些完整的语音模型，如STRAIGHT模型，该模型同时模拟了基频、声门源和频谱包络。STRAIGHT模型在语音修改和重新合成方面被证明是有效的。Degottex等人提出了一个混合激励和适应性声道估计的语音模型，该模型可以用于语音重新合成、气息声修改和基频调整等任务。这些研究虽然在构建完整语音模型方面取得了一定的进展，但大多数研究尚未充分考虑AM-FM效应对发音语音的影响。在此背景下，本文的研究意义重大，因为它不仅识别了现有模型中缺失的部分，即AM-FM效应，还提供了改进方法，并通过实验证明了新模型的准确性。尽管在部分内容中，由于OCR扫描技术的限制，个别字可能未能正确识别，但整体研究的逻辑和内容表述是清晰的，对于深入理解概率声管模型及AM-FM效应对语音处理影响具有重要的学术价值。

资源推荐

资源评论