1. 引言
随着实际应用中数据的爆炸式增长,最近邻搜索在信息检索、计算机视觉等领域有着
广泛的应用。然而,在大数据应用中,对于给定的查询,最近邻搜索通常是很耗时的。因
此,近年来,近似最近邻(Artificial Neural Network,ANN)搜索
[1]
变得越来越流行。在现有
的 ANN 技术中,哈希以其快速的查询速度和较低的内存成本成为最受欢迎和有效的技术
之一。哈希方法
[2,3]
的目标是将多媒体数据从原来的高维空间转换为紧凑的汉明空间,同时
保持数据的相似性。这些二进制哈希码不仅可以显著降低存储成本,在信息搜索中实现恒
定或次线性的时间复杂度,而且可以保持原有空间中存在的语义结构。
现有的哈希方法大致可分为两类:独立于数据的哈希方法和依赖于数据的哈希方法。
局部敏感哈希(Locality Sensitive Hashing, LSH)
[4]
及其扩展作为最典型的独立于数据的哈希
方法,利用随机投影得到哈希函数。但是,它们需要较长的二进制代码才能达到很高的精
度。由于数据独立哈希方法的局限性,近年来的哈希方法尝试利用各种机器学习技术,在
给定数据集的基础上学习更有效的哈希函数。
依赖于数据的哈希方法从可用的训练数据中学习二进制代码,也就是学习哈希。现有
的数据依赖哈希方法根据是否使用监督信息进行学习,可以进一步分为无监督哈希方法和
监督哈希方法。代表性的无监督哈希方法包括迭代量化(IteraTive Quantization, ITQ)
[5]
,离
散图哈希(Discrete Graph Hashing, DGH)
[6]
、潜在语义最小哈希(Latent Semantic Minimal
Hashing, LSMH)
[7]
和随机生成哈希(Stochastic Generative Hashing, SGH)
[8]
。无监督哈希只是
试图利用数据结构学习紧凑的二进制代码来提高性能,而监督哈希则是利用监督信息来学
习哈希函数。典型的监督哈希方法包括核监督哈希(Supervised Hashing with Kernels,
KSH)
[9]
,监督离散哈希(Supervised Discrete Hashing, SDH)
[10]
和非对称离散图哈希
(Asymmetric Discrete Graph Hashing, ADGH)
[11]
。近年来,基于深度学习的哈希方法
[12]
被提
出来同时学习图像表示和哈希编码,表现出优于传统哈希方法的性能。典型的深度监督哈
希方法包括深度成对监督哈希(Deep Supervised Hashing with Pairwise Labels, DPSH)
[13]
,深
度监督离散哈希(Deep Supervised Discrete Hashing, DSDH)
[14]
,和深度离散监督哈希(Deep
Discrete Supervised Hashing, DDSH)
[15]
。通过将特性学习和哈希码学习集成到相同的端到端
体系结构中,深度监督哈希
[16,17]
可以显著优于非深度监督哈希。然而,现有的深度监督哈
希方法主要利用成对监督进行哈希学习,语义信息没有得到充分利用,这些信息有助于提
高哈希码的语义识别能力。更困难的是,对于大多数数据集,每个项都由多标签信息进行
注释。因此,不仅需要保证多个不同的项对之间具有较高的相关性,还需要在一个框架中
保持多标签语义,以生成高质量的哈希码。
为了解决上述问题,本文提出了一种非对称监督深度离散哈希(Asymmetric Supervised
Deep Discrete Hashing, ASDDH)方法。具体来说,为了生成能够完全保留所有项的多标签语
义的哈希码,提出了一种非对称哈希方法,利用多标签二进制码映射,使哈希码具有多标