没有合适的资源?快使用搜索试试~ 我知道了~
论文研究-改进的美尔倒谱系数用于说话人识别研究.pdf
需积分: 0 0 下载量 194 浏览量
2019-09-13
09:26:10
上传
评论 1
收藏 536KB PDF 举报
温馨提示
试读
3页
基于人耳听觉感知的MFCC较其他说话人特征具有强抗噪性、高识别率特点。考虑美尔滤波器组的结构,其只在低频区具有较高的分辨率,在高频区分辨率却较低,这样势必会遗失一些包含在高频区域的重要信息。利用反美尔域下的特征R-MFCC与MFCC的各自优点,将R-MFCC与MFCC结合,形成优势互补,并给出了衡量各种特征参数识别能力的Fisher准则,结合Fisher准则构造出一种新的混合特征参数。采用支持向量机分别以MFCC、R-MFCC以及新构造的混合特征为参数进行说话人的识别,实验证明基于Fisher准则的优选混合特征作为说话人识别特征是可行的。
资源推荐
资源详情
资源评论
2012,48(8)
基于生物特征的身份鉴别技术已成为研究热点。以语音
为判别依据的说话人识别技术(Speaker Recognition)
[1]
是生
物认证技术的重要内容之一。在说话人识别技术中,MFCC
[2]
借鉴人耳的听觉机理,相对于其他特征具有强抗噪性、高识别
率的特点,目前已经成为主流的说话人识别特征参数。
通过分析 MFCC 滤波器组的结构不难发现,在其低频域
滤波器分布较密,而在高频域,其分布逐渐稀疏
[3]
。即信号在
低频域具有较高的分辨率,而在高频域的分辨率却较低。这
样势必会遗漏一些在高频域的特征信息。
针对上述问题,本文利用反美尔域下的特征 R-MFCC 与
MFCC 的各自优点,将 R-MFCC 与 MFCC 结合,发挥两者优
势,扬长避短,并结合 Fisher 准则的特征优选的融合结果
[4]
,最
后以支持向量机作为分类器进行说话人识别,取得了良好的
识别效果。
1 美尔倒谱系数的提取
鉴于听觉系统特性分析,人耳对于声音的高低感受与其
频率不成线性正比关系,因此引入音调的概念,其单位为Mel
[3]
。
MFCC 正是利用音调特性来提取的,即用 Mel 刻度对频率轴进
行弯折,计算听觉的主观频率(Mel 频率)上的倒谱系数。
实际频率 f 与Mel 频率之间的转换关系如下式所示:
F
mel
= 2 595 lg
æ
è
ç
ö
ø
÷
1 +
f
700
(1)
通过分析求取 MFCC 的过程发现,Mel 频率与 Hz 的对应
关系类似于临界频带的划分。因此可借鉴 MFCC 的求取机
理,将语音频率划分成一系列三角形滤波器序列,即 Mel 频率
滤波器组,每个滤波器在以 Mel 为单位的频率轴上是等间距
的,在以 Hz 为单位的频率轴上是不等间距的,而是符合临界
带宽的分布特性。Mel 滤波器组的结构如图 1 所示,其求取
MFCC 的过程如图 2 所示。
1.1 分帧
根据语音信号的短时平稳特性,可以把语音信号分成若
改进的美尔倒谱系数用于说话人识别研究
刘 宏
1
,刘立群
2
LIU Hong
1
, LIU Liqun
2
1.辽宁师范大学 管理学院,辽宁 大连 116029
2.沈阳师范大学 计算中心,沈阳 110034
1.College of Management, Liaoning Normal University, Daliang, Liaoning 116029, China
2.Center of Computing, Shenyang Normal University, Shenyang 110034, China
LIU Hong, LIU Liqun. Research on speaker recognition with improved MFCC. Computer Engineering and Applications, 2012,
48(8):155-157.
Abstract:Mel-Frequency Cepstral Coefficients(MFCC)based on the human auditory system represents high recognition rate and
strong power against noise compared with other features. However, due to the structure of its filter bank, it captures characteristics infor-
mation more effectively in the lower frequency regions than the higher regions. Thus there must be some informations contained in the
high frequency, which are missed. This work uses a new set of features by reversal of the filter bank structure which can make up the
lack of MFCC. Considering the advantages of the two features MFCC and R-MFCC and using the Fisher criterion which is used to mea-
sure the recognition of various parameters, a new hybrid parameter is constructed through a combination of the Fisher criterion. Support
vector machine as classifiers are adopted to identify speaker with MFCC, R-MFCC and the new hybrid parameter respectively. Experi-
mental data shows that the new hybrid feature based on Fisher criterion is effective in raising the recognition rate of the speaker recognition.
Key words:speaker recognition; reversal Mel-Frequency Cepstral Coefficients(MFCC); Fisher criterion; support vector machine
摘 要:基于人耳听觉感知的 MFCC 较其他说话人特征具有强抗噪性、高识别率特点。考虑美尔滤波器组的结构,其只在低频区
具有较高的分辨率,在高频区分辨率却较低,这样势必会遗失一些包含在高频区域的重要信息。利用反美尔域下的特征R-MFCC
与 MFCC的各自优点,将 R-MFCC 与MFCC 结合,形成优势互补,并给出了衡量各种特征参数识别能力的 Fisher 准则,结合 Fisher
准则构造出一种新的混合特征参数。采用支持向量机分别以 MFCC、R-MFCC 以及新构造的混合特征为参数进行说话人的识
别,实验证明基于 Fisher 准则的优选混合特征作为说话人识别特征是可行的。
关键词:说话人识别;反美尔倒谱系数;Fisher 准则;支持向量机
DOI:10.3778/j.issn.1002-8331.2012.08.044 文章编号:1002-8331(2012)08-0155-03 文献标识码:A 中图分类号:TP393
作者简介:刘宏(1969—),女,副教授,研究生导师,主要研究方向为计算机应用、信息管理;刘立群(1969—),女,副教授。E-mail:hljmxm@163.com
收稿日期:2010-09-28;修回日期:2010-12-20;CNKI出版:2011-03-15;http://www.cnki.net/kcms/detail/11.2127.TP.20110315.1622.014.html
图 1 Mel 滤波器组结构图
Mel 频率滤波
Mel 频谱
DCT
MFCC
频谱
FFT加窗分帧
连续语音 帧信号
图 2 求取 MFCC 的一般步骤
Computer Engineering and Applications 计算机工程与应用
155
资源评论
weixin_38743481
- 粉丝: 694
- 资源: 4万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功