基于双向LSTM神经网络和注意模型的语音情感分析.pdf_Lstm双向神经网络模型资源-CSDN文库

版权申诉

10 浏览量 2021-09-25 19:20:58 上传评论收藏 1.02MB PDF 举报

基于双向LSTM神经网络和注意模型的语音情感分析本文提出了一种基于双向长短时记忆神经网络和注意模型的语音情感分析方法。该方法采用柏林工业大学的EMO-DB语音情感数据库，并提取34种语音情感特征。结果表明，引入注意机制的模型对于德语语音情感分析结果具有较高的准确率。 1. 背景介绍语音交互是最为迅速直接的一种人机交互方式。语音情感识别使得计算机不仅能识别语音语义内容，且能获得人类情感，使人机交互更加人性化。在未来有着非常丰富的应用场景。 2. 相关概念与技术 2.1 MIR技术 MIR即音乐信息检索，该技术起源于数字音乐领域，不断演变成为计算机听觉领域的核心技术之一，可将音频数据转换为一系列声学特征。 2.2 双向长短时记忆神经网络 Bi-LSTM神经网络进行语音情感分析，在情感判断时同时考虑语音的上下文信息。 2.3 注意模型注意模型最早被应用于机器翻译的任务中，其原理是模拟人脑对于关键位置的注意程度，将关键位置加强权重，常被运用于对传统深度学习模型的改进。 3. 特征提取及模型构建 3.1 特征提取使用MIR的python包pyAudioAnalysis进行特征提取。按照每帧信息时长为25ms，间隔为10ms，重叠率为60%，获得音频的全部短时信息。提取到音频特征共34个。 3.2 模型构建模型包含2层含有512个隐藏单元的全连接层和一个含有128个神经元的双向长短时神经网络层，在每层加入Dropout层，Dropout的比例都为0.5，以此来防止过拟合。 4. 实验结果结果表明，引入注意机制的模型对于德语语音情感分析结果具有较高的准确率。 5. 结论本文提出了一种基于双向长短时记忆神经网络和注意模型的语音情感分析方法，结果表明该方法具有较高的准确率，能够更好地识别语音情感。 6. 未来工作未来工作将集中在语音情感分析的改进和应用上，如在智能家居、医疗保健等领域的应用。 7. 参考文献 [1] Minsky M. A framework for representing knowledge.[J]. 1974. [2] Zooijen H, Tolkmitt F J. Acoustic correlates of emotional speech.[C]// Proceedings of the 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. 1999: 529-532. [3] Moriyama T. Emotion recognition from speech signals.[D]. 2003. [4] Picard R W. Affective computing: From laughter to IEEE.[J]. 2000. [5] Li M, Han Y, et al. Speech Emotion Recognition Based on Multi-task Learning.[J]. 2020. [6] Xia R, Liu Y, et al. Emotion Recognition from Speech: A Review.[J]. 2020. 本文提出了一种基于双向长短时记忆神经网络和注意模型的语音情感分析方法，并在EMO-DB语音情感数据库上进行了实验验证，结果表明该方法具有较高的准确率。该方法能够更好地识别语音情感，具有广泛的应用前景。

资源推荐

资源评论