没有合适的资源?快使用搜索试试~ 我知道了~
基于全局-时频注意力网络的语音伪造检测.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 170 浏览量
2022-06-10
16:44:55
上传
评论
收藏 944KB DOCX 举报
温馨提示
试读
22页
基于全局-时频注意力网络的语音伪造检测.docx
资源推荐
资源详情
资源评论
摘 要 语音伪造检测是近年的一个研究热点,受到了广泛关注目前,卷积神经
网及其变种的提出,使其在语音伪造检测任务中取得了不错进展然而,目前仍
存在 方面问题:当前工作假设送入卷积神经网络的特征图的每一维对结果
的影响是相同的,忽视了每一维上特征图的不同位置强调的信息是不一样的
此外,前人工作大多关注特征图的局部信息,没有利用全局视图中特征图之间
的关系为了解决以上挑战,引入全局时频注意力框架,分别对通道维度和时
频维度做了注意力变换具体而言,引入了 个并行的注意力模块时频注意
力模块全局注意力模块对于时频注意力模块,可以通过使用加权求和在所
有时频特征图上聚合特征来进行更新对于全局注意力模块,借鉴了 的
思想,通过参数为每个特征通道生成权重通过这种办法,可以得到特征通道上
响应的全局分布在 公开数据集上进行了一系列实验,结果
显示所提的模型取得不错的效果,最佳模型的等错误率达到 ,刷新了单
个模型的最好成绩
关键词 语音鉴伪;注意力机制;语音伪造检测;全局注意力;时频注意力
自动说话人验证 ! "#$
%&'
是指
通过分析说话人的语音来自动接受或拒绝其身份它作为一种身份识别
技术,已经广泛应用于各种场景,例如:电子购物、电话银行、电子
商务等最近,越来越多的研究表明: 系统面临着各种伪造语音攻
击的问题常见的伪造语音可以分为 种方式:语音模仿、录音重放、
语音合成和语音转换
%'
因此,研究人员设法开发出有效的反欺骗系统,
以保护 系统免受伪造语音的欺骗攻击
为了提高反欺骗系统的性能,最近的工作主要集中在 个方面:
改善音频的声学特征设计新的分类模型选取能够有效区别真实语
音和伪造语音的声学特征尤为重要() 等人
%*'
将常数 + 变换倒谱
系数##+ ,-#$.+..应用于语音鉴伪中,
使用常数 + 变换##+ # $.+(而不是短时傅里叶变
换来处理语音信号,其性能优于普通的梅尔倒谱系数/, 0#1
-#$/2..3),,3 等人
%4'
用线性滤波代替
了 梅 尔 刻 度 滤 波 , 提 出 了 线 性 频 率 倒 谱 系 数 ,# 0#1
-#$2..,使其更加关注高频段特征此外,
3),,3 等 人
%4'
还 尝 试 了 翻 转 梅 尔 倒 谱 系 数 #! /,
0#1 -#$5/2..,将原先的梅尔刻度翻
转过来,使其在高频段分布更密,从而更专注于高频特征另一种方法
是设计新的分类模型,该模型可以学习到真伪语音的区分表示高斯混
合模型6#7 ),$6//是最常用的分类模型随着
深 度 学 习 的 发 展 , 卷 积 神 经 网 络 #!,## ,#8 $
.的性能,要比直接使用 6// 更好
%9'
例如具有最大特征图7
$ /2/ 激 活 功 能 的 轻 量 型 卷 积 神 经 网 络 ,:3
#!,## ,#8 $.
%'
,通过竞争学习的方法不仅
可以分离噪声信号和信息信号,还可以起到特征选择的作用残差网络
),#8 $;
%'
提出了残差模块,解决了网络“退化”的
问题,即随着网络模型的加深,学习效果反而变差这 种方法均被证
明是有效的,这表明使用适当的前端声学特征以及出色的深度学习模
型对于伪造语音检测都是至关重要的
虽然以上工作已经取得了比较好的表现,但仍存在 个方面问题:
现有的卷积神经网络及其变种忽视了每一维上特征图的不同位置强
调的信息是不一样的,它们假设送入卷积神经网络的特征图的每一维
对结果的影响是相同的当前工作集中关注特征图的局部信息,无法
利用全局视图中特征图之间的关系如何更全面精准地分析利用这些属
性特性找到真实语音和伪造语音的区别,将有限的注意力集中在重点
信息上是目前语音伪造检测研究所面临的一项重要挑战
注意力机制在图像识别、自然语言处理、语音识别等领域
%&9'
有了
很多成功应用受到这些应用的启发,我们考虑引入注意力机制来解决
将有限的注意力集中在重点信息上这一挑战 等人
%'
在语音伪造检测
领域中引入 ,从全局维度分配注意力权重 3 等人
%<'
在说
话人识别领域引入时频注意力,关注局部的注意力分配但是他们没有
考虑到将全局注意力模块和时频注意力模块联合使用本文融合了全局
时频注意力模块,同时从全局和时频特征图 个层面的注意力机制为
不同的特征赋予不同的注意力权重,实现了真伪语音特征更全面精准
的区分,从而保证了真伪语音的准确预测此外,为了进一步获得更具
有 区 分 性 的 真 伪 语 音 嵌 入 , 我 们 将 7 损 失 函 数 替 换 成 了
#:, 7
%'
损失函数,从优化内积空间到优化角度空间,使
得类间距离扩大,类内距离缩小,从而使得真伪语音的区分性更大了
最后,我们在 公开数据集上进行一系列实验,结果显
示所提的模型取得不错的效果,最佳模型的等错误率 0,
$;达到 ,刷新了单个模型的最好成绩
本文的主要贡献包括 个方面
融合了全局时频注意力网络,从全局和时频特征图 个层面的
注意力机制为不同的特征赋予不同的注意力权重,实现了真伪语音特
征更全面精准的区分
将 7 损失函数替换成了 #:, 7 损失函数,
进一步提升了模型的性能
1 相关工作
本节从轻量型卷积神经网络、注意力机制、前端声学特征研究和
#:, 7 损失函数 个方面介绍相关工作
1.1 轻量型卷积神经网络
轻 量 型 卷 积 神 经 网 络 . 最 早 应 用 于 人 脸 识 别 , 此 后 在
9 比赛中,第 名的队伍使用了 . 的方法,随后在
语音伪造检测领域中大量被使用在 . 中,每一个卷积层都用了最
大特征图 /2/ 如图 所示,具体而言就是将原输入层分为 个部分,
通过竞争学习,丢弃了输出较小的部分,剩下输出较大的部分此外,
. 相较于传统卷积神经网络不仅可以获得更好的性能,还可以减
少参数量本文所提的整体网络框架就在 . 的基础上进行了改进
剩余21页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3895
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功