没有合适的资源?快使用搜索试试~ 我知道了~
LexLIP:用于大规模图像-文本检索的词汇瓶颈语言-图像预训练 表现SOTA!性能优于COTS等网络,单位:香港浸会大学,微软 图像文本检索(ITR)是在给定来自另一模态的查询的情况下检索相关图像/文本的任务。传统的密集检索范式依赖于使用双流编码器将图像和文本编码为密集表示,然而,它在大规模检索场景中面临检索速度低的挑战。在这项工作中,我们提出了lexicon-weighting范式,其中学习图像和文本的词汇空间中的稀疏表示,以利用单词包模型和高效的反向索引,从而显著降低检索延迟。一个关键的差距来自于图像数据的连续性,以及对稀疏词汇空间表示的要求。为了弥补这一差距,我们引入了一种新的预训练框架,即Lexicon-Bottlenecked Languagelmage Pre-Training(LexLIP),该框架学习重要性感知词汇表示。该框架在双流编码器和弱化文本解码器之间具有词典瓶颈模块,允许构建连续的单词瓶颈包以学习词典重要性分布。在使用相同规模的数据进行预训练后,我们的LexLIP在两个基准ITR数据集MSCOCO和Flickr30k上实现了最先进的性能。此外,在大规模检索
资源推荐
资源评论
资源评论
小米-罗冰
- 粉丝: 281
- 资源: 7
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功