论文研究-Hilbert边际能量谱在语音情感识别中的应用.pdf

所需积分/C币:50 2019-09-13 03:12:48 547KB .PDF
33
收藏 收藏
举报

情感特征的提取是语音情感识别的重要方面。由于传统信号处理方法的局限,使得提取的传统声学特征特别是频域特征并不准确,不能很好地表征语音的情感特性,因而对情感识别率不高。利用希尔伯特黄变换(HHT)对情感语音进行处理,得到情感语音的希尔伯特边际能量谱;通过对不同情感语音的边际能量谱基于Mel尺度的比较分析,提出了一组新的情感特征:Mel频率边际能量系数(MFEC)、Mel频率子带频谱质心(MSSC)、Mel频率子带频谱平坦度(MSSF);利用支持向量机(SVM)对5种情感语音即悲伤、高兴、厌倦、愤怒和平静进行了识别。实验结果表明,通过该方法提取的新的情感特征具有较好的识别效果。
叶吉祥,胡海翔:Hbet边际能量谱在语音情感识别中的应用 2014,50(7)205 3 000 requency to Mel-frequency curve 与之相反,在1000Mel之后,愤怒较高兴能量要高。 情感语音特征提取 20 由上节分析可以看到,情感语音的 Hilbert边际能量 谱含有丰富情感特征信息,不同情感语音的 Hilbert边际 能量谱不仅存在频段内能量值大小的差异,还存在能量 1000 分布位置及变化快慢的差异。因此,可以提取体现人耳 听力特性及情感语音颊段内能量大小差异特性和动态 888 特性的特征参数——Mel频率边际能量系数(MFEC) 引入物理学上质心概念,提取反映语音频谱能量位置分 频率/Hz 布差异特性的特征参数—Mel频率子带频谱质心 图1Hz-Mel尺度对应曲线图 MSSC);定义 Hilbert边际能量谱子带能量的几何平均 取效率,选取0~4000Hz的 Hilbert边际能量谱作为研究值与算术平均值的比值来作为反映能量幅值变化的量 对象。从图2可以看到,不同情感语音的边际能量谱在度,提取一个称为Mel频率子带频谱平坦度(MSsF)的 Mel域内分布具有明显差异。整体而言低强度情感悲伤、特征参数。将三者共同组成特征矢量用于情感识别。 厌倦、平静具有丰富低频能量,而高强度情感高兴愤怒各特征提取的过程如图3所示。 则偏向于向高频偏移。在0~500Mel频段内,低强度情 各特征提取的完整计算流程分别如下 感悲伤、厌倦、平静的能量幅值比高强度情感高兴,生气 1)Me频率边际能量系数(MFEC)的提取 明显要高;而悲伤、厌倦、平静3种低强度情感在该频段 ①对语音信号预加重,FMD分解,并采用归一化相 也存在差异,其中,悲伤的能量主要集中于该频段,并出关性系数法去除伪分量 现明显尖峰,在该频段内厌倦比平静频谱相对平坦。而 ②将步骤(1)筛选出的若干IMF分量作 Hilbert变换 在500-1000Me频段内,平静却比厌倦能量更为集中,求出 Hilbert谱,并根据式(9)、(10)进一步求出 Hilbert 变化也更为平缓厌倦在该频段出现明显尖峰,其最大边际能量谱E()。 幅值约为平静的1.5倍。高兴和愤怒的 Hilbert边际能量 ③定义一个由M个三角形带通滤波器组成的滤波 谱较为相似,但愤怒相比高兴,能量更趋向于向高频偏器组,相邻滤波器交叉重叠在一起,且其中心频率在 移。在0~500Mel频段内,高兴较愤怒能量普遍要髙;而Mel频率铀上为等问距分布,滤波器组在频域上覆盖从 50010001500200025003000 5001000150020002500300 f/Mcl f/Mcl a)悲伤 (b)高兴 10 温 温 50010001500 25003000 0 50010001500200025003000 f/Mel mEl (c)厌倦 (d)愤怒 厌倦 平静 0 500 10001500200025003000 000 00025003000 #/Mel (e)平静 (f)5种情感语台边际能量谱对比 图25种情感语音的 Hilbert边际能量谱在Mel城分布图 206 014,50(7) Computer Engineering and4 pplications计算机工程与应用 语音、预加重及 r,() 4情感识別及实验结果分析 信号EMD分解 4.1识别方法 IMF(-1,2.……,n) 多情感的语音情感识别属于多分类问题,对于多分 类问题,常用的方法有“一对一”识别和“一对多”识别。 去除分量及 Hilbert变换 由于情感强度相近的语音在一定程度上有很大的相 Hilbert边际谱H(w 性,比如高强度情感语音高兴和生气,低强度情感语音 悲伤和厌倦等,采用“一对一”的方法有利于情感识别的 Hilbert边际能量谱E() 准确性。此外,文献[13]对建立在统计学小理论基础上 的主流分类器支持向量机(SVM)在两种方法下作了比 Mdl频率三角Me频率矩形 滤波器组‖滤波器组 较,表明基于SVM的“一对”方法不仅分类效果好而 且较“一对多”训练速度快。因此,选取“一对一”的 特征提取 SVM作为分类器。实验采用径向基函数作为SVM的 核函数,即 MFEC MSSC: MSSF 图3 Hilbert边际能量谱特征提取图 K(x, y)=exp(glx y),g>0 (15) 最优的惩罚系数C和径向基函数参数g的选择采 0-4000Hz。根据人耳掩蔽效应的临界带宽,选取滤波用多次交叉验证方法训练归一化后的样本数据来获取; 器个数M为24。 接着川最优的C和g训练建立SⅴM模型;最后,进行 ④将E(w)通过步骤③所定义的Mel滤波器组把滤 SVM情感识别。 波器组输出的各了带求能量Em并取对数,再作离散余4.2实验结果及分析 弦变换(DCT)即得到MFEC。计算如下: 实殓从语料库选取高兴、伤心、愤怒、厌恶、平静5 MFEC(n)=∑m(E(m)cos(m-0.5mM)(12)类情感各40句作为训练样本,30句作为测试样本。将 式中,n=1,2,…,L,根据L的取值便可得到L阶的MFEC。 样本按照3.3节的方法分别提取12阶的MHEC,4阶的 (2)BMel频率子带频谱质心(MSSC)及Mel频MSSC,4阶的MSF组成20维特征矢量,归一化后利用 子带频谱平坦度(MSSF)的提取 41节的分类方法对情感进行识别。各类情感的最高识 MSSC、MSSF提取的步骤①、②与MFEC相同,在 别结果如表1所示。 得到语音信号 Hilbert边际能量谱E(w)后步骤如下 表1边际能量谱特征对各兆情感的识别率 ③定义一个由M个矩形带通滤波器组成的滤波器 (平均识别率为82.67%) 组,相邻滤波器不重叠,且其中心频率在Mel频率轴上情感类别惠伤高兴厌倦愤怒半静 为等间距分布的。滤波器组在频域上覆盖从0~4000Hz, 悲伤 选取滤波器个数M为4。 高兴 ④将E(w)通过步骤(3)所定义的滤波器进行子带分 厌倦 愤怒 割,各子带的频谱质心(MSSC)及频谱平坦度(MSSF) 平静 分别计算如下: 识别率/(%)90.0076.6770.0093.3383.33 ∑f()·F'() MSSC(n)= (13) 从表1可以看到,基于 Hilbert边际能量谱的新特征 E(i) 对语音情感具有较好的区分性,其中,悲伤、愤怒、平静 的识别率都达到了80%以上,而高兴、厌倦的识别率相 对低些。高兴被错误识别的样本大部分都被归类到了 E'(t) MSSF(n) (14) 愤怒,而厌倦主要与平静存在混淆。这主要是由于情感 E,()/N 强度相近的情感语音在发音生理特性上存在相似性 为进一步说明新提取特征的有效性,选取MFCC以 其中,n=1,2,…,M。f()为第n个子带第i点对应及表征语音动态特性的其一阶差分(△MFCC)特征与 频率,En()为第n个子带的第i点对应的 Hilbert边际MC特征对情感的识别进行性能对比;选取文献[4 能量值,N为第〃个子带总点数。对于MSSF,值越接提出的同样表征能量频域分布特性的权值频率(WF)特 近1表眀子带颊谱越平坦,越接近θ则表眀该子带频谱征与MSC、MSsF特征对情感的识别进行性能对比,结 幅值具有较大差异,频谱变化较大。 果如表2所小。 叶吉祥,胡海翔:Hbet边际能量谱在语音情感识别中的应用 2014,50(7)207 表2不同情感特征对各类情感识别率比较(%) national Conference on Spoken Language Processing. Phila 情感类别 delphia:EEE,1996:1808-1811 特征向量 平均 悲伤高兴厌倦愤怒平静识别率 [3] Ververidis D, Kotropoulos C. Automatic speech classifi MFCC+△MFCC86.6763 70.008667600073.33 cation to five cmotional stales bascd on gender informa MFEC 83.3370.006000900080.0076.67 on[c]proceeding of EUSIPCo 2004 Conference, 2003 WF 63.33566753.3373.3370.0063.33 341-344 MSSC 73.33 60.00 63.33 86.67 66.67 70.00 [4 Iliou T, Anagnostopoulos C NStatistical evaluation of MSSE 70.0066.6763.33766763.3368.00 speech features for emotion recognition[ C]/Proceedings of 从表2可以看到,MFFC特征相比MFCC+∧MFCC the 4th International Conference on Digital Telecommu nications, Colmar, France, July 2009: 121-126 对情感的平均识别夲提高了3.3%,对情感高兴的识别 5] Ling I, Margaret L Time-frequency feature extraction from 提高了将近7%,尤其是对情感平静的识别率提高了 spectrograms and wavelet packets with application to auto 20%。此外,相比MFCC+ AMFCO,MFFC的维数降低了 matic stress and emotion classification in speech[c]/Pro- 半,表明基于 Hilbert边际能量谱的MFEC特征比传统 ceedings of the IEEE ICICS.[SL ]: IEEE, 2009 的基于傅里叶谱的短时特征MFCC+△MFCC更能表征6 Huang n e. The empirical mode decomposition and the 语音动态特性,对情感具有更好识别效果。同时,从 Hilbert spectrum for nonlinear and nonstationary time MSSC、MSSF与WF特征对情感识别的比较可以看到 series analysis []. Proceedings of the Royal Society A 除情感平静外,MSSC、MSSF特征对其余4种情感的识别 1998,454:903-995 均比WF特征效果要妤。从表1中MFEC、MSSC、MSSF[7蔡建作,胡惟文,王先春基于边际谱的功率谱估计方法小 特征的融合识别结果与表2特征的独立识别结果对比可 核电子学与探测技术,2011,31(9):1062-106 以看到,MSSC、MSSF特征对情感的独立识别效果虽然没 H. Chen sG. Sug C emotio 有MFEC特征好,但它们对MFEC具有一定补充作用 darin spccch bascd on TEO nonlincar fcatures[C]//Pro ceedings of Eighth ACIs International Conference on 融合识别结果相比MFEC特征的独立识别结果,平均识 Software Engineering, Artificial Intelligence, Networking 别率提高了6%。 and ParallelDistributed Computing, Qingdao, China, July 2007:394-398 5结论 [9 Berlin data base of emotional speech[EB/ OL][2012-05-011 本文通过HHT对情感语吝进行处理,得到语音信 http:/ipascal.kgwtu-bcrlin.dc/cmodb/indcx-1280.html 号的 Hilbert边际能量谱。然后,通过对不同情感语音的10 uang r,Mac. Towards a speaker-independent real-time 边际能量谱基于Mel尺度的比较分析,提出了3种新的 affect detection system PRoc of the 18th Int Conf 情感特征:MHEC、MSSC、MSSF用于情感识别。实验结 on Pattern Recognition( ICPR06),2006: 1204-1207 果表明,基于Mel尺度的 Hilbert边际能量谱特征对语音] Davis s B, Mermelstein F, Comparison of parametric 情感的识别是有效的,尤其是对高强度与低强度情感语 representations of monosyllabic word recognition in 首之间的区分具有较好的效果,但对于强度相似的情感 continuously spoken sentences[J].IEEE Transactions on Speech Acoustic Processing, 1980, 28: 357-366 语音,如何进一步提高它们区分性,将是下一步研究需 [12]刘畅,周川,伍星,等基于广义形态滤波和相关系数的 要继续进行的工作。 Hilbert- Huang变换方法门机械科学与技术,2011,30(1) 71-75 参考文献 [13] Hsu C W, Lin C J. A comparison of methods for multi [1 Murray I R, Arnott J L Toward the simulation of emotion class support vcctor machines[J].IEEE Transactions on n synthetic speech: a review of the literature on human Neural Networks. 2002.13: 415-425 vocal cmotion[]Journal of the Acoustical Socicty of [14] Sethu V, Ambikairajah E, Epps JEmpirical mode decom America,1993,93(2):1097-1108 position based weighted frequency feature for speech-based 12 Scherer k r. Adding the affective dimension: a new look emotion classification[ C]/Proceedings of the IEEE ICASSP in speech analysis and synthesis[c]//Proceedings of Inter [S.:IEEE,2008

...展开详情
试读 5P 论文研究-Hilbert边际能量谱在语音情感识别中的应用.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-Hilbert边际能量谱在语音情感识别中的应用.pdf 50积分/C币 立即下载
1/5
论文研究-Hilbert边际能量谱在语音情感识别中的应用.pdf第1页

试读结束, 可继续读1页

50积分/C币 立即下载 >