没有合适的资源?快使用搜索试试~ 我知道了~
2021-基于多头注意力机制的模型层融合维度情感识别方法_董永峰2
需积分: 0 1 下载量 144 浏览量
2022-08-03
21:52:21
上传
评论
收藏 1018KB PDF 举报
温馨提示
试读
11页
摘要:近年来,情感识别成为了人机交互领域的研究热点问题,而多模态维度情感识别能够检测出细微情感变化,得到了越来越多的关注多模态维度情感识别中需要考虑如何进行不同
资源详情
资源评论
资源推荐
信号处理
Journal of Signal Processing
ISSN 1003-0530,CN 11-2406/TN
《信号处理》网络首发论文
题目: 基于多头注意力机制的模型层融合维度情感识别方法
作者: 董永峰,苏海洋,刘斌,陶建华
收稿日期: 2021-01-15
网络首发日期: 2021-03-30
引用格式: 董永峰,苏海洋,刘斌,陶建华.基于多头注意力机制的模型层融合维度情
感识别方法.信号处理.
https://kns.cnki.net/kcms/detail/11.2406.tn.20210324.0941.006.html
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
--------------------------------------------------------
收稿日期:2021-01-15;修回日期:2021-03-08
基金项目:国家重点研发计划(2017YFB1002804);国家自然科学基金重点项目(61831022, 61771472, 61901473,61902106);天津市自然科
学基金(19JCZDJC40000);河北省自然科学基金(F2020202028)
基于多头注意力机制的模型层融合维度情感识别
方法
董永峰
1
苏海洋
1,2
刘 斌
2
陶建华
1,2
(1. 河北工业大学人工智能与数据科学学院,天津 300401;2. 中国科学院自动化研究所模式识别实验室,北京 100190)
摘 要:近年来,情感识别成为了人机交互领域的研究热点问题,而多模态维度情感识别能够检测出细微情感变
化,得到了越来越多的关注多模态维度情感识别中需要考虑如何进行不同模态情感信息的有效融合。针对特征层
融合存在有效特征提取和模态同步的问题、决策层融合存在不同模态特征信息的关联问题,本文采用模型层融合
策略,提出了基于多头注意力机制的多模态维度情感识别方法,分别构建音频模型、视频模型和多模态融合模型
对信息流进行深层特征学习,最后放入双向长短时网络中得到最终情感预测值。所提方法相比于不同基线方法在
激活度和愉悦度上均取得了最佳的性能,可以在高层维度对情感信息有效捕捉,进而更好的对音视频信息进行有
效融合。
关键词:维度情感识别;多模态情感融合;模型层融合;多头注意力机制
中图分类号:TP391.4 文献标识码:A
Model Level Fusion Dimension Emotion RecognitionMethodBased on
Transformer
Dong Yongfeng
1
Su Haiyang
1,2
Liu Bin
2
Tao Jianhua
1,2
(1. School of Artificial Intelligence, Hebei University of Technology, Tianjin 300401, China; 2. National Laboratory of Pattern
Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China)
Abstract: In recent years, emotion recognition had become a hot research topic in the field of human-computer
interaction, and multi-modal dimensional emotion recognition could detect subtle emotional changes, which had attracted
more and more attention. In multi-modal emotion recognition, it was necessary to consider how to effectively integrate
different modal emotion information. Aiming at the problem of effective feature extraction and modal synchronization in
feature level fusion, and the correlation problem of different modal feature information in decision level fusion, this paper
adopted a model level fusion strategy and proposes a multi-modal dimension emotion recognition method based on
Transformer. Respectively constructed audio model, video model and multi-modal fusion model to learn the deep features
of the information flow, and finally put it into Bi-directional Long Short Term Memory to obtain the final emotional
prediction value. Compared with different baseline methods, the proposed method achieves the best performance in terms
of arousal and valence, and could effectively capture emotional information in high-level dimensions, and thus better
effectively integrate audio and video information.
Key words: dimension emotion recognition; multimodal emotion fusion; model level fusion; Transformer
1 引言
情感识别有助于快速传达信息并理解别人的真实意图,是人机交互的关键
[1]
。在情感表示模型方面,
网络首发时间:2021-03-30 08:44:35
网络首发地址:https://kns.cnki.net/kcms/detail/11.2406.tn.20210324.0941.006.html
主要分为离散表示模型
[2]
和维度表示模型
[3]
,离散表示模型将人类的情感划分为几种常见的情感,来反映
人的基本情绪,而维度情感表示模型使用维度空间中的连续数值来描述情感状态,每个情感状态对应二维
空间中的一个点
[4]
,坐标系横轴 arousal 代表激活度,表示情感的激昂与低迷程度,值越大表示情感越激昂,
值越小表示情感越低迷;坐标轴 valence 代表愉悦度,表示情感的积极与消极程度,值越大表示情感积极
程度越高,值越小表示情感消极程度越高。维度情感识别模型能够更为有效的反映交互对象的心理细微波
动,对于增强交互的自然度有着重要作用,同时维度情感表示识别模型在提高情感识别的准确性和鲁棒性
中也起着重要的作用。因此本文以维度情感表示模型为研究基础。
目前基于单模态的情感识别已经取得了一定的进展,Wang 等人
[5]
利用双向递归神经网络(Bi-RNN)
对视频特征进行情感学习,但是情感是由多种模态综合表现出来的,各个模态之间也具有一定的关联,同
时不同模态对于情感结果的贡献程度也不尽相同
[6]
。通常来说,多模态情感识别的性能要优于单模态情感
识别性能,而目前主要的多模态情感融合方法是特征层融合和决策层融合。
特征层融合方法需要分别从多种模态信息中提取特征,构建用于识别情感的联合特征,对各模态有较
高的同步要求。Chaparro 等人
[7]
提出基于脑电图等生理信号的多模态情感识别模型,在特征层串联融合面
部表情特征和心电信号特征构成多模态特征,实验表明,多模态特征的识别率高于一种模态特征的识别率。
Xu 等人
[8]
利用注意力机制对语音和音频文本在特征层进行融合,在交互式情绪二元运动捕捉(IEMOCAP)
数据集上取得了最好的性能。在国际音视频情感识别竞赛(audio/visual emotion challenge, AVEC2017)中,
Singh 等人
[9]
利用传统的视频纹理特征和 openXBOW 提取的音频词袋特征集(bag-of-audio-words, BoAW)
进行特征层融合的情感识别。Basnet 等人
[10]
通过基于交互信息选择的音视频特征层融合构建情感预测模型。
Aven 等人
[11]
对音频、视频和文本特征进行特征层融合对抑郁症相关的情感状态构建情感识别模型。特征
层只是对各个模态的情感特征进行简单拼接,并没有考虑到模态之间的信息交互。决策层融合方法考虑不
同模态信息对于情感识别贡献度不同,大多数多模态融合情感识别方法采用决策层融合。Poria 等人
[12]
利
用等权重原理,在决策层加权融合音频、视频和文本的分类结果,此时等价于无加权融合。Sebastian 等人
[13]
在特征层上对语音和音频文本进行前期特征层融合,然后输入到网络中再与经过长短时记忆网络(Long
Short Term Memory, LSTM)的文本特征结果进行决策层的后期融合。Huang 等人
[14]
基于 LSTM 的决策层
情感识别在 AVEC2017 中取得了不错的成绩,之后又提出了端到端情感识别模型
[15]
。Chen 等人
[16]
基于
LSTM-RNN 模型提出多任务学习的多模态情感识别方法。决策层融合虽然解决了不同模态之间的时序不同
步问题,但是没有考虑到不同模态的情感特征信息的关联。
本文针对以上问题,提出基于多头注意力机制的模型层融合维度情感识别方法,模型层融合既解决了
不同模态时序不同步的问题,同时考虑了不同模态的情感特征信息之间的关联性。在模型层融合部分,本
文利用多头注意力机制构建模型层融合模块,分别将音视频信息放入模块中进行高层维度的时序动态情感
特征学习,再将其放入融合模块中进行模型层的时序动态情感特征学习,最后用双向长短时记忆网络
(Bi-directionalLong Short Term Memory, BLSTM)和线性变换,得到最终情感预测值。因为维度情感数据
库较小,为了解决这个的问题,本文对原始数据库进行了数据增广,然后提取音频和视频的情感特征信息。
文中比较了使用相同数据库的研究人员识别方法,模型层融合方法在激活度和愉悦度上均取得了最佳的性
能。实验结果表明,基于模型层的音视频维度情感识别中,可以在高层维度对情感信息有效捕捉,进而更
好的对音视频信息进行有效融合。
本文在第一部分中对情感识别相关研究现状和研究内容进行了介绍,在第二部分中介绍了本文提出的
基于多头注意力机制的模型层融合维度情感识别方法,在第三部分中介绍了实验结果和分析,最后在第四
部分中对实验做了总结和展望。
2 基于多头注意力机制的模型层融合维度情感识别
本文所提的基于多头注意力机制的模型层融合维度情感识别方法整体框架如图 1 所示。基于音视频数
据进行维度情感识别建模,主要包括音频模块、视频模块和音视频融合模块,音频和视频模块通过自注意
剩余10页未读,继续阅读
张匡龙
- 粉丝: 18
- 资源: 279
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 汇编语言开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- Python + OpenCV开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- 儿童节小游戏开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- MySQL开发案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- MATLAB仿真案列优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- MATLAB优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- 4319447015972566022ssm城市交通海量数据管理系统.zip
- 前端开发实例优质学习资料资源工具与案列应用场景开发文档教程资料.txt
- Screenshot_20240601_132217.jpg
- Screenshot_20240601_132233.jpg
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0