没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
西 北 师 范 大 学 学 报 (自然科学版) 第 49 卷 2013 年第 2 期
Journal of Northwest Normal University (Natural Science) Vol. 49 2013 No. 2
收稿日期: 20120913; 修改稿收到日期: 20130225
基金项目: 国家自然科学基金资助项目(60875015,61263036,61262055); 甘肃省自然科学基金资助项目(1107RJZA112)
作者简介: 杨鸿武 (1969—), 男, 甘肃合作人, 教授, 博士 . 主要研究方向为语音信号处理 .
Email: yanghw @ nwnu. edu.cn
基 于 FDA 的 基 频 建 模
杨鸿武, 王红丽, 裴 东, 郭威彤
(西北师范大学 物理与电子工程学院, 甘肃 兰州 730070)
摘 要: 提出了一种利用 FDA 方法对语音基频包络建模的新方法 . 用 B-样条 函数对 4 种 声调的单字 基频抽取其 基频
样点进行数据平滑处理, 得到平滑后的基频曲线, 将平滑后的基频曲线进行 2 次时间校准处理, 得到 拟合后的基 频曲
线 . 将原始基频 与拟 合 后 的 基 频 曲 线 进行 对 比, 实 验 结 果 表 明, 文 中 提 出 的 方 法 建 立 的 基 频 模 型 的 均 方 误 差 为
6. 47 Hz, 可应用于语音合成等语音信息处理中 .
关键词: 泛函数据分析(FDA); 基频曲线; 基频建模; B-样条函数
中图分类号: TN 912. 3 文献标识码: A 文章编号: 1001-988Ⅹ(2013)02-0040-05
Modeling pitch contour based on functional data analysis
YANG Hong-wu, WANG Hong-li, PEI Dong, GUO Wei-tong
(College of Physics and Electronic Engineering, Northwest Normal University, Lanzhou 730070, Gansu, China)
Abstract: A novel method for modeling pitch contour with FDA method is presented . By smoothing the
pitchs samples of four kinds of Mandarin monotone with B-spline basis function, the fitted pitch contour
is obtained . Comparing the pitch contours of before alignment and after alignment, the experimental
results demonstrated that proposed method can accurately model the pitch contours with 6.47 Hz of mean
root error . Proposed method can be applied to speech synthesis .
Key words: FDA; pitch contour; pitch modeling; B-spline
近几年来, 语音合成技术得到广泛的推广和应
用, 因此对合 成 语 音 的 质 量 提 出 了 越 来 越 高 的 要
求 . 如果合成语音过程中能更大限度地表征语音的
个性特征, 赋予语音感情色彩, 使得合成的语音能
够表情达意, 那么合成语音的自然度必将获得很大
的提高 .
在汉语中, 语音基频包络的变化表征了音节的
声调特征, 也体现了连续语流中主要的韵律的变化
趋势特征 . 基频包络不仅携带了声调信息, 而且携
带了语调信息, 体现了声调和语调最显著的声学特
征 . 人类所发出的语言自然流畅, 是因为基频包络
中包含了语音、语法、情感以及发音实体等多方面
的因素 . 所以, 要使计算机发出与人类同样高的自
然度的合成语音, 就要使合成语音的基频包络融入
更多的语音信息 . 总之, 合理恰当地控制基频包络
是提高合成语音自然度的重要因素之一 .
目前已有很多研究者对基频包络进行了深入的
研究并对其进行了建模 . 贾珈等
[ 1 ]
利用混合聚类
算法实现了语音基频建模; Fujisaki 等
[ 2 ]
提出了一
种利用喉部结构和喉部肌肉相互作用的关于基频的
Fujisaki 模型; 许毅等
[ 3 ]
针对汉语音节的基频模型
框架提出了 Pitch-Target 模型; 梁青 青 等
[ 4 ]
利用
归一化的五度字调法建立了基频模型 . 但是这些模
型不能简单灵活地调整和控制语音基频包络的形
状 . 在自然的情感语音中, 同声调的音节的基频包
络形状针对不同情感存在一定的差异 . 例如, 中性
语音的基频包络形 比较平缓, 而愤怒的语音, 其
基频包络则显得陡峭 . 由于 FDA 方法
[ 5 ]
采用多个
44
资源评论
weixin_38516270
- 粉丝: 3
- 资源: 1011
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功