【免费】【语音识别】基于神经网络的语音情感识别matlab代码.zip资源-CSDN文库

共1个文件

pdf：1个

需积分: 0 182 浏览量 2021-11-25 21:28:11 上传评论收藏 498KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

【语音识别】基于神经网络的语音情感识别matlab代码.zip （1个子文件）

【语音识别】基于神经网络的语音情感识别matlab代码.pdf 516KB

【语音识别】基于神经网络的语音情感识别matlab代码

1 简介

语音情感识别是从语音信号中提取一些有效的声学特征,然后利用智能计算或者识别的方法对话者的情感

状态进行识别。介绍了国内外在该领域中关于语音情感数据库、特征提取、识别方法的研究现状。基于

对该领域现状的了解,发现特征提取对识别率有着非常大的影响。录制了1050句语音,每句语音提取了30

个特征,从而形成了一个1050×30的数据库。提出了用粗糙集理论中的信息一致性对数据库中的30个特征

进行化简,最后得到了12个特征。用神经网络中的BP网络对话者的情感状态进行识别,最高识别率达到了

84%。从实验结果发现不同的情感用不同的方法识别结果更好。

如何选择有效的语音情感特征，直接影响到语音情感识别结果的好坏。首先要明确研究哪几类情感，从

心理学的角度来看，总共包括以下７类情感，即高兴、生气、悲伤、害怕、惊讶、厌恶、中性。本文主

要研究生气、高兴、悲伤和惊讶这四类情感。目前，很多研究中都是把语音情感识别问题转化为模式识

别问题进行研究。其本质就是先对语音信号特征进行预处理，再提取相关特征，从而进行分类。选取语

音持续时间、短时能量、基音频率、共振峰和ＭＦＣＣ等语音信号特征进行相关研究。

2.1 语音持续时间

语音持续时间实际上就是说话过程中所持续的时间，其往往与所表达的情感有着直接的关联。一般来

说，人生气时说话速度较快，语音持续时间较短；而处于悲伤或者害怕时说话的语速就会较慢，语

音持续时间较长。因此，选择带有情感的语音持续时间与正常状态下的语音持续时间的比值作为一个特

征参数。

2.2 短时能量短时能量

直接反映了声音音量的大小。一般来说，清音的能量较小，浊音的能量较高。当一个人的情感为生气或

者是惊讶的时候，其说话的音量就会变大，短时能量往往也比较高。当一个人的情感为害怕或者悲伤

的时候，说话的音量就会变低，短时能量往往也比较低。因此，本文选择短时能量的均值、最大值、最

小值、变化范围这４个特征参数。

2.3基音频率

基音频率简称基频，它直接反映了声道的特征，已经在多个领域被广泛应用，如语音识别、语音合

成等。一般来说，男性的基频较低，女性的基频较高。不同情感状态下基频的大小不同。相关研

究表明，生气、高兴和惊讶时的基频变化范围和均值较高，相反悲伤时基频的均值和变化范围较

小。因此，本文选取了基频的均值、最大值、最小值和变化范围这４个特征参数。

2.4 共振峰

共振峰指发声的气流经过声道时，与声道发生共振的频率。其与情感有着很大的关联，情感状态不

同，共振峰频率也随之发生变化。目前，大多数的研究都是利用线性预测法来提取语音信号中的共振峰

频率。共振峰参数的选择对语音情感识别有着重要意义。因此，本文选取第一共振峰频率的均值、第

二共振峰频率的均值、第三共振峰频率的均值和第四共振峰频率的均值作为特征参数。

2.5 ＭＦＣＣ

即便是同一句话，同一个人在不同的情感状态下说出来也是不一样的，让听者听起来感觉更是不一样。

ＭＦＣＣ是梅尔频率倒谱系数的简称，它是模拟人耳听觉特性所提取的特征参数，已经被广泛应用于语

音识别和语音合成的研究中。因而选取１２维ＭＦＣＣ均值作为特征参数。

2 部分代码

%实验要求：基于神经网络的语音情感识别

clc

内容反馈

Matlab科研辅导帮

粉丝: 2w+
资源: 7553

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip