由于具有很高的存储和搜索效率,散列在大规模相似性搜索中已变得十分普遍。 特别是,深度哈希方法大大提高了在有监督的情况下的搜索性能。 相反,由于缺乏可靠的监督相似性信号,无监督的深度哈希模型很难获得令人满意的性能。 为了解决这个问题,我们提出了一种新颖的深度无监督哈希模型,称为DistillHash,它可以学习由数据对组成的,具有置信度相似信号的数据集。 具体来说,我们调查了从局部结构中获悉的初始噪声相似度信号与贝叶斯最佳分类器分配的语义相似度标签之间的关系。 我们表明,在温和的假设下,可以潜在地提取某些数据对,其标签与贝叶斯最佳分类器分配的标签一致。 受这一事实的启发,我们设计了一种简单而有效的策略来自动提取数据对,并进一步采用贝叶斯学习框架从提取的数据集中学习哈希函数。 在三个广泛使用的基准数据集上的大量实验结果表明,所提出的DistillHash始终能够实现最先进的搜索性能