1
特定人语音情感识别系统
2
摘要
本文通过特定人语音情感数据库的建立;语音情感特征提取;语音情感分类
器的设计,完成了一个特定人语音情感识别的初步系统。对于单个特定人,可以
识别平静、悲伤、愤怒、惊讶、高兴 5 种情感,除愤怒和高兴之间混淆程度相对
较大之外,各类之间区分特性良好,平均分类正确率为 93.7%。对于三个特定人
组成的特定人群,可以识别平静、愤怒、悲伤 3 种情感,各类之间区分特性良好,
平均分类正确率为 94.4%。其中分类器采用混合高斯分布模型。
关键词:语音信号,情感特征,情感识别
EMOTION RECOGNITION OF SPEECH
BASED ON MATLAB
Abstract
In this article, we have accomplished a system for emotion recognition of speech
by establishing a database of speech with certain emotion by certain people; analyzing
emotion features and designing a sort system for emotion recognition. For one
specific person, five emotions including calmness, sadness, anger, surprise and
happiness can be recognized; an average accuracy of 93.7% is achieved due to the fact
that it’s harder to distinguish anger and happiness. For a specific group made up of
three people, three emotions including calmness, sadness and anger can be recognized;
an average accuracy of 94.4% is achieved. A Gaussian Mixture Model is adopted in
the sort system for emotion recognition.
Keywords:Speech Signal,Emotional Feature,Emotion Recognition
3
Chapter 1 引言
随着信息技术的不断发展,情感信息处理及识别正在受到学者越来越广泛的
重视。语音信号中,除了与语言内容相关的信息之外,还包含着说话人的情感信
息。这些情感信息在交流中同样具有着重要的作用。不同的情感一般是由说话人
通过调整发音器官的动作,改变了语音信号的声学特征所表达出来的。这些特征
包括音质特征、韵律特征、共振峰特征等等。
在相对研究较少的汉语情感识别方面,我们在赵力[2]、蒋丹宁[4]等人所做
工作的基础之上,
建立情感语音数据库是汉语普通话情感语音识别研究的基础。为此我们建立
了一个小规模的普通话情感语音数据库,进而对数据库中的各种声学特征与情感
状态之间的关系作了统计分析。
本文组织如下:第二章介绍了语音情感信号的采集和数据库的建立;第三章
介绍了从情感语音数据库中提取基音、能量、共振峰等特征的方法;第四章介绍
了分类器的设计和各种特征参数与情感的统计关系;最后一章给出了分类的结论
和需要进行的后续工作。
Chapter 2 情感语音信号的采集
本文所研究的情感语料对单个特定人共包括 5 类情感:愤怒、平静、悲伤、
高兴、惊讶;对三个人组成的特定人群包括 3 类情感:愤怒、悲伤、平静。共有
超过 500 句的情感语句,包括了陈述句、祈使句、疑问句等句子类型,以及各种
声调组合及语句长度等情况。为方便情感的表达,不同的情感语音文本不完全相
同。录音者就是本文的三位作者。录音软件为 CoolEdit2000,语音的文件格式
为单声道,16KHz 采样,量化比特数为 16。
为了检验所收集的语音情感的有效性,我们找了另外 3 位同学,随机播放所
录制的情感语音,要求他们通过主观评判说出所播放语音的情感类别,实验结果
如表 1。根据听取结果剔除了一些语句,最后采用了的情感语句共 480 句。
表 1:情感语音听取实验结果
情感类别
愤怒
平静
悲伤
高兴
惊讶
错误率(%)
愤怒
120
6
0
2
5
9.8
平静
0
120
3
0
0
2.4
悲伤
0
2
120
0
0
1.6
高兴
2
0
0
60
2
6.3
惊讶
3
2
0
1
60
9.1
4
(1)系统框架和方法(单独描述算法和流程,不包含实验结果)应
该有一个单独的章节,实验部分是一个单独的章节(描述实验
条件,语音库,实验结果,实验部分篇幅 2-3 页就够了)。最
后由实验结果得到结论。现在文章的一大问题是数据太多,结
论太少,显得没有高度。
(2)文章显得单薄,建议补充如下实验;
a. 分类器采用混合高斯模型或神经网,文章里加一些分类器算法
描述。
b. 采用 multi-pass 的分类方法,每个 pass 采用不同的特征,处理
不同的情感种类,提高系统复杂度。
c. 鉴于你们实验了多种特征,建议你们使用 LDA 或 PCA 算法对
这些特征降维,应该能大幅提高性能。
d. 基于上面的方法把特定人群情感种类增加到 5 种,现在文章里
特定人群实验只有 3 类情感,让别人感觉实验没做完整。
Chapter 3 情感语音的特征参数及其提取
§3.1 基音频率参数
对于基音频率的处理,我们的作法是利用自相关法求出基音频率,并对基频
曲线进行中心消波和线性平滑处理,然后对基频曲线的下列特征进行了研究,并
对特征能够较好区分的情感作了统计。绘制的图像见附表。
为方便起见,下文中五种情绪简化表示如下:
p:平静 b:悲伤 j:惊讶 f:愤怒 g:高兴
表 2:基音频率参数的统计结果
各情感参数
特征名称
愤怒
平静
悲伤
惊讶
高兴
效果
能够较好
区分的情
感
基频最大值
337.5
231.5
314.4
322.2
351.6
良
P+J
5
基频最小值
64.2
44.6
57.2
60.9
66.8
中
无
基频变化范
围
273.3
186.9
257.2
261.2
284.8
中
无
基频局部最
小值分布
223.6
127.4
166.3
179.2
256.7
良
P+F
基频的均值
233.4
132.9
167.0
181.2
264.4
好
P+J+G+F
基频方差
4.27e3
1.38e3
3.68e3
5.39e3
3.49e3
中
无
基频变化率
的均值
-2.4e-3
-9.7e-4
-8.7e-4
-3.5e-3
-4.6e-4
中
无
基频变化率
的方差
7.6e-3
3.4e-3
6.5e-3
6.3e-3
4.2e-3
中
无
§3.2 共振峰参数
共振峰是反映声道特性的一个重要参数,我们通过对语音流中加汉明窗再对
其进行傅立叶变换的方法求得共振峰,并对其以下特征进行了研究。
表 3:共振峰参数的统计结果
各情感参数
(第一行为均值,第二行为方差)
特征名称
愤怒
平静
悲伤
惊讶
高兴
效果
能够较好区分
的情感
第一共振峰均值
28.3
17.4
10.4
22.3
32.0
好
B+J+G
共振峰方差
16.4
6.94
19.9
8.87
27.6
中
无
§3.3 能量参数
在能量方面,考虑到音量的绝对大小并不应该成为表达情感的主要参数,所
以我们主要研究了能量变化率等相对变化的特征参数。