图像文本检索+图像预训练

文本检索

需积分: 4 3 下载量 173 浏览量 2023-02-09 14:01:38 上传评论收藏 2.44MB PDF 举报

温馨提示

试读

11页

LexLIP：用于大规模图像-文本检索的词汇瓶颈语言-图像预训练表现SOTA！性能优于COTS等网络，单位：香港浸会大学，微软图像文本检索（ITR）是在给定来自另一模态的查询的情况下检索相关图像/文本的任务。传统的密集检索范式依赖于使用双流编码器将图像和文本编码为密集表示，然而，它在大规模检索场景中面临检索速度低的挑战。在这项工作中，我们提出了lexicon-weighting范式，其中学习图像和文本的词汇空间中的稀疏表示，以利用单词包模型和高效的反向索引，从而显著降低检索延迟。一个关键的差距来自于图像数据的连续性，以及对稀疏词汇空间表示的要求。为了弥补这一差距，我们引入了一种新的预训练框架，即Lexicon-Bottlenecked Languagelmage Pre-Training（LexLIP），该框架学习重要性感知词汇表示。该框架在双流编码器和弱化文本解码器之间具有词典瓶颈模块，允许构建连续的单词瓶颈包以学习词典重要性分布。在使用相同规模的数据进行预训练后，我们的LexLIP在两个基准ITR数据集MSCOCO和Flickr30k上实现了最先进的性能。此外，在大规模检索

资源推荐

资源评论