高效准确地识别视觉重叠图像对是大规模运动结构 (SfM) 面临的持续挑战。最近,基于CNN的方法已经证明了找到视觉上相似的图像对的能力。具有手工制作或基于学习的局部特征的BoW(词袋)或视觉词汇树(VoC)已广泛嵌入到3D重建任务中。为了探索相应的差异,在这项工作中,我们根据为确定SfM的视觉重叠图像对而定制的规律微调了几种流行的CNN(AlexNet,VGG,ResNet)。更具体地说,通过充分考虑摄影测量要求和3D网格模型,生成了由常规摄影测量图像和来自Internet的众包图像组成的新训练数据集(称为LOIP)。在微调过程中采用配对图像的局部区域重叠信息。为了聚合来自不同通道的特征图,针对每个区域信息采用可学习的多个NetVLAD,以进一步提高检索性能。