基于双向LSTM神经网络和注意模型的语音情感分析 本文提出了一种基于双向长短时记忆神经网络和注意模型的语音情感分析方法。该方法采用柏林工业大学的EMO-DB语音情感数据库,并提取34种语音情感特征。结果表明,引入注意机制的模型对于德语语音情感分析结果具有较高的准确率。 1. 背景介绍 语音交互是最为迅速直接的一种人机交互方式。语音情感识别使得计算机不仅能识别语音语义内容,且能获得人类情感,使人机交互更加人性化。在未来有着非常丰富的应用场景。 2. 相关概念与技术 2.1 MIR技术 MIR即音乐信息检索,该技术起源于数字音乐领域,不断演变成为计算机听觉领域的核心技术之一,可将音频数据转换为一系列声学特征。 2.2 双向长短时记忆神经网络 Bi-LSTM神经网络进行语音情感分析,在情感判断时同时考虑语音的上下文信息。 2.3 注意模型 注意模型最早被应用于机器翻译的任务中,其原理是模拟人脑对于关键位置的注意程度,将关键位置加强权重,常被运用于对传统深度学习模型的改进。 3. 特征提取及模型构建 3.1 特征提取 使用MIR的python包pyAudioAnalysis进行特征提取。按照每帧信息时长为25ms,间隔为10ms,重叠率为60%,获得音频的全部短时信息。提取到音频特征共34个。 3.2 模型构建 模型包含2层含有512个隐藏单元的全连接层和一个含有128个神经元的双向长短时神经网络层,在每层加入Dropout层,Dropout的比例都为0.5,以此来防止过拟合。 4. 实验结果 结果表明,引入注意机制的模型对于德语语音情感分析结果具有较高的准确率。 5. 结论 本文提出了一种基于双向长短时记忆神经网络和注意模型的语音情感分析方法,结果表明该方法具有较高的准确率,能够更好地识别语音情感。 6. 未来工作 未来工作将集中在语音情感分析的改进和应用上,如在智能家居、医疗保健等领域的应用。 7. 参考文献 [1] Minsky M. A framework for representing knowledge.[J]. 1974. [2] Zooijen H, Tolkmitt F J. Acoustic correlates of emotional speech.[C]// Proceedings of the 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. 1999: 529-532. [3] Moriyama T. Emotion recognition from speech signals.[D]. 2003. [4] Picard R W. Affective computing: From laughter to IEEE.[J]. 2000. [5] Li M, Han Y, et al. Speech Emotion Recognition Based on Multi-task Learning.[J]. 2020. [6] Xia R, Liu Y, et al. Emotion Recognition from Speech: A Review.[J]. 2020. 本文提出了一种基于双向长短时记忆神经网络和注意模型的语音情感分析方法,并在EMO-DB语音情感数据库上进行了实验验证,结果表明该方法具有较高的准确率。该方法能够更好地识别语音情感,具有广泛的应用前景。
- 粉丝: 131
- 资源: 23万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助