基于全局-时频注意力网络的语音伪造检测.docx_语音伪造检验资源-CSDN文库

版权申诉

170 浏览量 2022-06-10 16:44:55 上传评论收藏 944KB DOCX 举报

资源推荐

资源详情

资源评论

摘要语音伪造检测是近年的一个研究热点，受到了广泛关注目前，卷积神经

网及其变种的提出，使其在语音伪造检测任务中取得了不错进展然而，目前仍

存在  方面问题：当前工作假设送入卷积神经网络的特征图的每一维对结果

的影响是相同的，忽视了每一维上特征图的不同位置强调的信息是不一样的 

此外，前人工作大多关注特征图的局部信息，没有利用全局视图中特征图之间

的关系为了解决以上挑战，引入全局时频注意力框架，分别对通道维度和时

频维度做了注意力变换具体而言，引入了  个并行的注意力模块时频注意

力模块全局注意力模块对于时频注意力模块，可以通过使用加权求和在所

有时频特征图上聚合特征来进行更新对于全局注意力模块，借鉴了  的

思想，通过参数为每个特征通道生成权重通过这种办法，可以得到特征通道上

响应的全局分布在  公开数据集上进行了一系列实验，结果

显示所提的模型取得不错的效果，最佳模型的等错误率达到 ，刷新了单

个模型的最好成绩

关键词语音鉴伪；注意力机制；语音伪造检测；全局注意力；时频注意力

自动说话人验证 ! "#$

%&'

是指

通过分析说话人的语音来自动接受或拒绝其身份它作为一种身份识别

技术，已经广泛应用于各种场景，例如：电子购物、电话银行、电子

商务等最近，越来越多的研究表明： 系统面临着各种伪造语音攻

击的问题常见的伪造语音可以分为  种方式：语音模仿、录音重放、

语音合成和语音转换

%'

因此，研究人员设法开发出有效的反欺骗系统，

以保护  系统免受伪造语音的欺骗攻击

为了提高反欺骗系统的性能，最近的工作主要集中在  个方面：

改善音频的声学特征设计新的分类模型选取能够有效区别真实语

音和伪造语音的声学特征尤为重要() 等人

%*'

将常数 + 变换倒谱

系数##+ ,-#$.+..应用于语音鉴伪中，

使用常数 + 变换##+ # $.+(而不是短时傅里叶变

换来处理语音信号，其性能优于普通的梅尔倒谱系数/, 0#1

 -#$/2..3),,3 等人

%4'

用线性滤波代替

了梅尔刻度滤波，提出了线性频率倒谱系数 ,#  0#1

 -#$2..，使其更加关注高频段特征此外，

3),,3 等人

%4'

还尝试了翻转梅尔倒谱系数 #!   /,

 0#1 -#$5/2..，将原先的梅尔刻度翻

转过来，使其在高频段分布更密，从而更专注于高频特征另一种方法

是设计新的分类模型，该模型可以学习到真伪语音的区分表示高斯混

合模型6#7 ),$6//是最常用的分类模型随着

深度学习的发展，卷积神经网络 #!,## ,#8 $

.的性能，要比直接使用 6// 更好

%9'

例如具有最大特征图7

   $  /2/ 激活功能的轻量型卷积神经网络 ,:3

#!,## ,#8 $.

%'

，通过竞争学习的方法不仅

可以分离噪声信号和信息信号，还可以起到特征选择的作用残差网络

 ),#8 $;

%'

提出了残差模块，解决了网络“退化”的

问题，即随着网络模型的加深，学习效果反而变差这  种方法均被证

剩余21页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3895
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip