没有注释的图像在Internet上无处不在,因此为它们推荐标签已成为图像理解中一项具有挑战性的开放任务。 相关工作的常见瓶颈是图像和文本表示之间的语义鸿沟。 在本文中,我们通过引入语义层(将图像标签表示为单词向量的单词嵌入空间)来弥合差距。 我们的模型首先使用训练源学习从视觉空间到语义空间的最佳映射。 然后,我们通过解码视觉特征的语义表示来注释测试图像。 大量实验表明,在预测图像标签方面,我们的模型优于最新方法。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~