音频哈希技术是一种基于内容的紧凑摘要,能够唯一地代表一段音频,主要用于内容认证、基于内容的识别、索引和检索等。传统的音频哈希技术与密码学哈希不同,它对内容的感知变化敏感,并且能够容忍在内容保持不变的前提下对音频进行的操作。这些操作包括时间拉伸和音高移位(TSM),它们在音频哈希领域依然是一个严重的挑战。
传统的音频哈希方案通常基于计算机视觉技术,例如,基于频谱图的尺度不变特征变换(SIFT)的哈希算法,虽然对TSM和音高移位具有很高的鲁棒性,但存在一些不足之处。频谱图与人类听觉系统分析声音的方式存在重要差异,尤其是在高频时耳蜗的频率子带变得更宽,而频谱图对所有频率通道都保持恒定的带宽。SIFT特征提取器的输出没有采用特征维度降低技术,导致了数以百计的特征及其128维描述符,这使得哈希序列的大小过大,不适合存储和传输。第三,在匹配两个音频片段时,需要对每对特征进行匹配,这增加了计算的复杂性。
为了改进现有的基于计算机视觉的哈希方案,本文提出了一种新的鲁棒音频哈希方案。该方案将音频的耳蜗图视为图像,从中提取Speeded-Up Robust Features(SURF)作为基本特征。通过非负矩阵分解(NMF)技术降低特征维度。在哈希匹配阶段,通过对两个音频片段基本特征构建的交叉递归图进行递归量化分析来测量它们的相似性。实验结果表明,与现有技术相比,所提出的方法在识别率(在各种内容保持操作下)和计算复杂性方面表现出了优越性能。
耳蜗图是一个模拟人类听觉系统感知过程的模型,它在音频信号处理中模拟了耳蜗的滤波功能。耳蜗图能够更好地反映人耳对声音频率的非线性感知,比频谱图更符合人类听觉感知特性。因此,将音频信号转化为耳蜗图,再使用计算机视觉技术提取特征,可以使得音频哈希方案对音频内容的变化更为敏感,并且能够容忍各种内容保持操作。
交叉递归分析是一种用于测量两个动态系统相似性的技术,通过递归图可以观察两个系统在状态空间中的轨迹是否相似。在这个音频哈希方案中,交叉递归分析被用于计算两个音频片段特征在状态空间中的交叉递归图的相似性,进而评估两个音频片段的相似度。
非负矩阵分解是一种降维技术,它利用了特征空间的非负性约束来提取数据的内在结构。在音频哈希方案中,使用NMF来降低提取特征的维度,这不仅减少了哈希序列的大小,而且提高了存储和传输的效率。
最终,提出的鲁棒音频哈希方案结合了耳蜗图的听觉感知特性、计算机视觉技术的特征提取方法和交叉递归分析的相似性度量技术,创造了一种在保证高识别率的同时减少计算复杂性的新方法。这种方法不仅对内容保持的操作具有良好的鲁棒性,而且在资源有限的应用场景中,如移动设备和网络传输,具有潜在的应用价值。