和情感联系。因此,当模型对目标序列进行情感分类时,不同片段序列之间的上
下 文 可 以 提 供 重 要 的 提 示 信 息 。 Poria 等人
[13]
建 立 了 一 种 基 于 LSTM ( long
short-term memory)的层次模型来捕捉视频片段间的上下文信息。Majumder
等人
[14]
通过保持两个独立的门控循环单元来跟踪视频中对话者的状态,有效地
利用了说话者之间的区别和对话中的上下文信息。Shenoy 等人
[15]
提出的基于
上下文感知的 RNN(recurrent neural network)模型能够有效地利用和捕获所
有模态对话的上下文用于多模态情绪识别和情感分析。Kim 等人
[16]
建立了一种
基于多头注意力的循环神经网络模型,该模型采用 BiGRU 和注意力机制来捕获
会话的上下文信息的关键部分。但是,现在人们表达情感的方式已不再局限于
单一的文字,往往通过文本、图像、视频等多种模态相结合的方式共同传递信
息,那么如何有效利用多模态信息进行情感分析仍是一项艰巨的任务。
近年来,注意力机制已被广泛应用于 NLP (natural language processing)
领域。研究表明,注意力机制能够聚焦于输入序列的关键信息,并忽略其中不相
关的信息,从而提高模型的整体性能。因此,越来越多的研究人员尝试将注意力
机制应用于探索模态内部和不同模态之间的交互作用。Zadeh 等人
[17]
提出了一
种多注意力循环神经网络(multi-attention recurrent network,MARN),利用多
注意力模块(multi-attention block,MAB)发现模态之间的相互作用,并将其存
储在长短时混合记忆(long-short term hybrid memory,LSTHM)的循环网络中。
Xi 等人
[18]
提出利用多头交互注意力来学习文本、语音和视频模态之间的相关性。
Verma 等人
[19]
提出了一种高阶通用网络模型来封装模态之间的时间粒度,从而
在异步序列中提取信息,并利用 LSTM 和基于张量的卷积神经网络来发现模态
内部和模态之间的动力学。
综上所述,随着深度学习研究的不断深入,多模态情感分析实现了跨越式的
进步和发展,但如何有效地利用单模态独立特征和多模态交互特征进行建模依
旧是多模态情感分析所面临的主要问题。为此,本文在现有多模态情感分析方
法的基础上,提出了一种融合上下文和双模态交互注意力的多模态情感分析模
型,旨在利用 BiGRU 和注意力机制更多地关注相邻话语之间的依赖关系以及文
本、语音和视频模态之间的交互信息并为其分配合理的权重,实现多模态特征
的有效融合,从而提高多模态情感分类的准确率。
评论0
最新资源