基于视觉变换器的视频哈希检索方法_Vision Transformer Based Video Hashing Retrieval for Tracing the Source of Fake Videos.pdf
摘要中的“基于视觉变换器的视频哈希检索方法”是一种针对假视频源追踪的技术,它旨在解决传统伪造视频检测方法的局限性。传统方法仅能提供可能性值或篡改图像的疑似遮罩,但不能作为确凿证据。该文提出了一种名为Video Tracking and Tampering Localization(VTL)的新模型,利用Vision Transformer来改进视频检索,尤其在区分相似视频源的细微差别上具有优势。
视觉变换器(Vision Transformer,ViT)是近年来在计算机视觉领域发展起来的一种新型架构,它源于自然语言处理中的Transformer模型,并被成功应用于图像处理任务。在视频哈希检索中,ViT能够捕获视频帧之间的长期依赖关系,这对于识别同一场景的不同角度或相似场景中相同人物的微小差异至关重要。
VTL模型分为两个阶段:第一阶段,通过训练得到的ViTHash(VTL-T)生成哈希中心。这些哈希中心用于存储和组织原始视频的特征表示。当输入一个假视频时,ViTHash会生成一个哈希码,这个哈希码可以用来从哈希中心检索到最相似的源视频。第二阶段,将源视频和假视频输入到生成器(VTL-L),生成器能够识别出疑似篡改的区域并进行遮罩,为辅助分析提供信息。
为了验证方法的有效性,研究者构建了两个数据集:DFTL和DAVIS2016-TL。实验结果显示,在DFTL数据集上,VTL框架在追踪相似视频源方面表现出优越性能。同时,VTL在DAVIS2016-TL数据集上与最先进的方法表现相当。
此研究不仅提出了新的视频哈希检索技术,还提供了开源代码和数据集,有助于进一步推动相关领域的研究和发展。通过使用视觉变换器和创新的损失函数(Hash Triplet Loss),研究人员解决了人们之间或场景之间的高相似性问题,提高了追踪假视频源头的准确性。
这项工作对于防范深度伪造和对象篡改等欺诈行为具有重要意义,它为视频取证提供了更可信的手段,并为未来视频内容安全的研究提供了新思路和工具。