文本-图像多模态任务
问题
在当前的文本-图像多模态任务研究中,尽管多头注意力机制已经被广泛应用,但仍然存在一些
不足之处。其中,两个主要的问题是多头注意力权重分配可能不合理,以及注意力向量可能包
含的信息不够丰富。这些问题的产生主要源于模型在跨模态关联和信息整合方面的挑战。
问题 1 多头注意力权重分配不合理
在一些情况下,多头注意力可能没有合理地分配权重,导致模型在跨模态任务中无法充分捕捉
到文本和图像之间的关联。例如,在图像描述生成任务中,一些注意力头可能过度集中于图像
的局部细节,而忽略了与文本描述相关的全局信息。这会导致生成的描述不够准确或不连贯。
问题 2 注意力向量包含信息不够丰富
多头注意力机制的每个头部会生成一个注意力向量,但这些向量可能在捕捉关联性和语义信息
方面受限。特别是对于复杂的文本-图像关系,仅仅通过注意力向量可能无法充分表示两种模态
之间的丰富关联。
创新点
为了解决上述问题,本研究提出:基于互信息和信息熵的权重分配。其主要包括两个部分:
基于互信息的权重分配
引入互信息作为一个指导信号,来调整多头注意力的权重分配。具体来说,根据文本和图像之
间的互信息来调整注意力头的权重,使其更加关注那些在两种模态之间具有高互信息的特征。
通过这种方式,模型可以更准确地捕捉到文本和图像之间的关联性,从而提高任务的性能。