面向多模态情感分析的双模态交互注意力.docx

版权申诉

68 浏览量 2022-11-28 20:30:42 上传评论收藏 418KB DOCX 举报

资源详情

资源评论

随着移动互联网和和社交媒体的蓬勃发展,越来越多的用户通过 YouTube、

微博、抖音等社交媒体讨论时事、表达观点、分享日常等,从而产生了海量的

具有情感取向的多模态数据。在社交媒体平台上,用户上传的视频是多模态数

据的重要来源之一

[1]

。视频数据通常包含三种模态：描述用户观点的文本、表

达用户面部表情的图像以及记录用户语音语调的音频。针对这些多模态数据进

行情感分析将有利于了解人们对某些事件或商品的观点和态度,在舆情分析、

心理健康、政治选举等方面都有着巨大的应用价值

[2]

。

与传统的单模态情感研究相比,多模态情感分析的目标是通过融合多个模

态的数据来推断目标序列的情感状态

[3]

。如图 1 显示了文本、面部表情和语音

语调对于情感分类的作用。其中,视频中说话人关于某部电影发表评论“The only

actor who can really sell their lines is Erin.”这条评论是一个陈述句,而且没有

明显体现情感取向的词语,因此仅仅依据这句话所传达的信息很难判断出说话

人的情感状态,但如果为这句评论加入说话人的面部表情（facial expressions）

和语音语调（voice intonation）,则可以反映出说话人目前的情感状态是消极

的。因此,对于多模态情感分析任务,文本、语音和视频模态之间的语义和情感

关联能够为情感分类带来重要的补充信息。

图 1

图 1 文本、面部表情和语音语调对于情感分类的作用

Fig.1 Effect of text, facial expressions and voice intonation on sentiment

classification

由于文本、语音和视频特征在时间、语义维度上存在较大差异,目前大多

数多模态情感分析方法是将所有可用的模态特征直接映射到一个共享空间中

[4]

学习不同模态之间复杂的交互作用。但是,大多数情况下,并不是融合的模态信

息越丰富,情感分类的准确率就越高,这主要是因为不同模态的信息对于情感分

类的贡献是不相等的

[5]

。

为了解决上述问题,本文提出了一种融合上下文和双模态交互注意力的多

模态情感分析方法 , 该方法首先采用 BiGRU （ bidirectional gated recurrent

unit）

[6]

分别捕获文本、语音和视频序列的上下文特征。然后利用不同模态之

间存在的语义和情感关联,设计了一种双模态交互注意力,并结合自注意力

[7]

和

全连接层构造了一个层次化的多模态特征融合模块,旨在通过注意力机制更多

地关注目标序列及其上下文信息与各模态之间的相关性,从而帮助模型区分哪

些模态信息对于判别目标序列的情感分类更加重要,实现跨模态交互信息的有

效融合。最后 , 在 CMU-MOSI （ CMU multimodal opinion-level sentiment

intensity）

[8]

数据集上进行实验,实验结果表明,相比现有的多模态情感分类模型,

该模型在准确率和 F1 分数上均有所提升。

1 相关工作

多模态情感分析主要致力于联合文本、图像、语音与视频模态的情感信息

来进行情感的识别与分类,是自然语言处理、计算机视觉和语音识别相交叉的

一个新兴领域

[9]

。与单一模态的情感分析相比,多模态情感分析不仅要学习单模

态的独立特征,还要融合多种模态的数据

[10]

。多模态融合主要是通过建立能够

分析和处理不同模态数据的模型来为情感分类提供更多的有效信息。Zadeh 等

人

[11]

利用模态之间的联系建立了一种张量融合网络模型,采用三倍笛卡尔积以

端到端的方式学习模态之间的动力学。Zadeh 等人

[12]

提出了一种可解释的动态

融合图（dynamic fusion graph,DFG）模型,用于研究跨模态动力学的本质,并

根据每个模态的重要性动态改变其结构 ,从而选择更加合理的融合图网络。

Chen 等人

[9]

提出利用时间注意力的门控多模态嵌入式模型来实现多模态输入

时单词级别的特征融合,该方法有效地缓解了噪声对特征融合的影响。上述方

法在进行特征提取时都将每个话语看作独立的个体,忽略了与上下文之间的依

赖关系。

多模态情感分析的研究数据通常来自社交网站上用户上传的视频,这些视

频数据被人为地划分成视频片段序列,而片段序列之间往往存在着一定的语义

和情感联系。因此,当模型对目标序列进行情感分类时,不同片段序列之间的上

下文可以提供重要的提示信息。 Poria 等人

[13]

建立了一种基于 LSTM （ long

short-term memory）的层次模型来捕捉视频片段间的上下文信息。Majumder

等人

[14]

通过保持两个独立的门控循环单元来跟踪视频中对话者的状态,有效地

利用了说话者之间的区别和对话中的上下文信息。Shenoy 等人

[15]

提出的基于

上下文感知的 RNN（recurrent neural network）模型能够有效地利用和捕获所

有模态对话的上下文用于多模态情绪识别和情感分析。Kim 等人

[16]

建立了一种

基于多头注意力的循环神经网络模型,该模型采用 BiGRU 和注意力机制来捕获

会话的上下文信息的关键部分。但是,现在人们表达情感的方式已不再局限于

单一的文字,往往通过文本、图像、视频等多种模态相结合的方式共同传递信

息,那么如何有效利用多模态信息进行情感分析仍是一项艰巨的任务。

近年来,注意力机制已被广泛应用于 NLP （natural language processing）

领域。研究表明,注意力机制能够聚焦于输入序列的关键信息,并忽略其中不相

关的信息,从而提高模型的整体性能。因此,越来越多的研究人员尝试将注意力

机制应用于探索模态内部和不同模态之间的交互作用。Zadeh 等人

[17]

提出了一

种多注意力循环神经网络（multi-attention recurrent network,MARN）,利用多

注意力模块（multi-attention block,MAB）发现模态之间的相互作用,并将其存

储在长短时混合记忆（long-short term hybrid memory,LSTHM）的循环网络中。

Xi 等人

[18]

提出利用多头交互注意力来学习文本、语音和视频模态之间的相关性。

Verma 等人

[19]

提出了一种高阶通用网络模型来封装模态之间的时间粒度,从而

在异步序列中提取信息,并利用 LSTM 和基于张量的卷积神经网络来发现模态

内部和模态之间的动力学。

综上所述,随着深度学习研究的不断深入,多模态情感分析实现了跨越式的

进步和发展,但如何有效地利用单模态独立特征和多模态交互特征进行建模依

旧是多模态情感分析所面临的主要问题。为此,本文在现有多模态情感分析方

法的基础上,提出了一种融合上下文和双模态交互注意力的多模态情感分析模

型,旨在利用 BiGRU 和注意力机制更多地关注相邻话语之间的依赖关系以及文

本、语音和视频模态之间的交互信息并为其分配合理的权重,实现多模态特征

的有效融合,从而提高多模态情感分类的准确率。

剩余14页未读，继续阅读

评论收藏

内容反馈

版权申诉

面向多模态情感分析的双模态交互注意力.docx

评论0

最新资源

面向多模态情感分析的双模态交互注意力.docx

评论0

最新资源

相关推荐

ChatGPT技术的多模态交互设计方法.docx

ChatGPT技术与多模态人机交互的探索.docx

ChatGPT技术实现的多模态交互设计方法.docx

多模态人机交互中的大模型学习系统与应用.docx

ChatGPT技术的多模态对话与场景交互研究.docx

ChatGPT技术的多模态对话交互设计与实现.docx

ChatGPT的动态对话生成与多模态交互研究.docx

ChatGPT技术对话生成中的多模态交互.docx

ChatGPT技术对于多模态场景中交互的支持能力分析.docx

ChatGPT技术的多模态对话交互与感知技术研究.docx

ChatGPT技术对于对话中的多模态交互与信息融合.docx

ChatGPT技术对话生成中的多模态交互探究与实践.docx

ChatGPT技术的多模态交互与视觉语义理解方法.docx

多模态人机交互综述(译文).docx

追一科技多模态数字人,5G时代下的人机交互.docx

追一科技多模态数字人,5G时代下的人机交互 (2).docx

ChatGPT 多模态和跨学科能力解析，利用GPT-4写英语和小学生智力开发代码.docx

什么是GPT-4？对ChatGPT的研究介绍、多模态和跨学科构成和对人类的未来影响.docx

摩根智能家居参观心得.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

农村公交与异构无人机协同配送优化

基于小波与卷积神经网络的多尺度时间序列分类.zip

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

李飞飞自传 我看见的世界 The World I see

4个亲测好用的ChatGPT4渠道

李飞飞自传我看见的世界 The World I see