没有合适的资源?快使用搜索试试~ 我知道了~
基于混合特征和多通道GRU的伪造语音鉴别方法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 190 浏览量
2022-06-18
11:16:03
上传
评论
收藏 237KB DOCX 举报
温馨提示
试读
13页
基于混合特征和多通道GRU的伪造语音鉴别方法.docx
资源推荐
资源详情
资源评论
0 引言
近年来以深度学习算法为核心驱动的深度伪造技术蓬勃发展产品覆盖面广
且效果逼真借助网络社交媒体的涟漪效应极易迅速传播形成影响。随之而来的
是安全风险的持续升级恶意应用的伪造语音将催生语音网络诈骗、虚假信息传
播等问题。为此研究语音真伪鉴别技术提升模型鉴伪能力的准确性与泛化性对
有效防范语音合成等技术带来的威胁具有重要意义。
伪造语音的鉴定是通过对语音特征的提取处理 利用自然语音和人工合成语
音之间的差异作出判断。对于多样的语音特征和不同的语音伪造方法 如何选取
最优特征组合并构建效率和准确度兼备的鉴伪模型是一个值得研究的问题。本
文通过引入时域频域特征融合的特征工程方法和设计高效灵敏的神经网络 最终
实现针对传统伪造和深度伪造语音的通用化鉴别。该方法在保持高检测效果和
减少特征损失的同时兼顾运行效率和模型精简同时引入注意力机制等前沿设计
方法以进一步增强效果提升了未知音源背景下的伪造语音鉴别能力。
1 相关研究
语音鉴伪的检测对象按技术手段可分为传统波形拼接、录音重放和利用机
器学习模型实现的从文本到语音( )的语音合成和语音转
换 ()两类。由于人工智能和机器学习蓬勃发展参数生
成音频成倍增长且越发真伪难辨相应的检测方法主要集中在这种伪造方式上。
具体的检测手段由两部分组成前端用于参数化语音信号从中捕获反映与转换或
合成过程相关的伪影信息后端则要利用前端提取的语音特征确定语音信号是自
然语音还是合成语音。
语音伪造检测研究最初依赖于语音信号相关的先验知识聚焦新颖特征的提
出判别方法则多基于高斯混合模型()、支持
向量机( )等机器学习算法。主流语音特征工
程如梅尔频率倒谱系数( )、线
性预测倒谱系数()、感知线性
预测()等已经在检测模型中进行了广泛应
用。 !"##
$%
&
等人、! #'(!
$)
&
等人使用包括标准 特征在内的多种
用于欺骗攻击检测的语音前端特征并比较了不同分类器在检测任务中的效果。
不难发现由于建模过程中高频段频谱信息细节的缺失参数生成语音的语音参数
动态变化往往小于天然语音的动态变化。因此 *"
$+
&
等人着力于利用语音的高
分辨率表示进行鉴别检测效果确有提升。尽管这种针对特征差异的评估提供了
一种鉴伪方法但往往只针对一个特定的语音参数生成系统同样的对策可能不适
用于其他使用不同声学参数的生成器难以实现鲁棒的广义对抗。
应用广泛的特征大都基于线性功率谱频谱中包含的幅值信息经过线性平均
会趋近于零从而产生特征损失。,!"
$-
&
等人摒弃传统的傅立叶变换使用恒定 .
变换(/.)从得到的倍频程功率谱中获得鉴别特征。此外
语音信号逐帧处理会不可避免地产生时间伪影为进一步提升检测性能#!"
$0
&
等
人采用帧序列而非单个帧作为输入1(
$2
&
等人结合长时调制和短时频谱特征引入
长期时间信息包含的丰富信息量提升特征的表征能力。
随着深度神经网络在监督学习中的优势凸显研究者关注特征提取、融合的
同时开始探索将卷积神经网络(""34"" )等深
度监督学习方法用于语音特征提取
$5
&
以及判别分类器
$6
&
通过模型本身的能力获取
精细化的特征从而减少手工特征工程的使用。1!"
$7
&
等人借助 '"" 中的隐
藏层学习精细特征、1(
$%8
&
等人提出轻量型卷积神经网络(9
""34"")、#
$%%
&
等人在 :" 的基础上修改得到的新模型结构
:)"这些伪造语音检测方法无需大量先验知识的支撑而是借助数据驱动带
来模型效能提升。此外语音作为一种连续信号相邻帧之间具有一定的时间关联
性循环神经网络(:""34:"")的加入能为长期依赖性建
模增强检测能力。相关研究中以 "" 为帧级特征提取器并将提取的信息输入
:"" 来学习深度特征的长期依赖性
$%)
%+
&
。基于类似思路;*</!!"#
$%-
&
等人
利用 "" 层替换门控循环单元神经网络( :(:
""34:()递归单元中的全连接层将帧级深度特征提取和话语级
身份向量融合到一个网络中。
上述方法对于 和 这两种伪造手段已具有较强的检测能力但在面对
重放攻击产生的欺骗时仍有不足。重放语音信号在录音过程中涉及录音设备的
特性、质量、声环境等多种因素在回放过程中根据声环境的不同还引入了其他
因素如混响。目前 9 能量算子(9*9;*;)已被用
于研究由混响引起的延迟和振幅变化从而对重放语音信号进行分析
$%0
&
但对于其
他因素的考量仍有待进一步探索。
本文提出的基于混合特征融合的多通道 :( 模型所做贡献如下:
%)在特征方面采用 特征与 n 阶差分参数融合的方式补充特征时序
信息=
))在模型方面对应输入的特征采用了多通道 :( 结构充分挖掘不同输入
的多尺度信息并使用注意力机制有效降低特征维度提升模型检测效果。
2 伪造语音检测方法
)>%语音特征提取
语音特征提取是从原始语音波形中通过数字化模拟听觉系统对音频信号的
接收处理提取出表征说话人信息的个性化特征。在伪造语音检测任务中伪造语
音由于伪造方法本身的技术欠缺会不可避免地出现发声错误、韵律生硬、词句
重读不准确等不足因此提取出的特征能区别于真实语音特征可作为鉴别真实语
音与伪造语音的依据。语音特征提取的方法包含传统的手工特征工程 以及当前
利用深度学习算法自动化提取特征的方法但实验证明以原始音频作为输入从中
学习得到的特征相比手工特征工程优势不明显且大大提升模型复杂度
$%2
&
。因此本
文选择使用经典的 在增加时序信息的基础上作为模型输入。
梅尔频率倒谱系数的提取过程如图
%
所示主要包括预加重、分帧、加窗、
快速傅立叶变换、 滤波、离散余弦变换等步骤。
图 %
图 1MFCC 特征提取流程
预加重:利用高通滤波器补偿因发音系统限制与介质传播所带来的高频分
量损失避免高频部分信噪比过低从而提升语音质量具体实现如公式(%)所示。
y(n)=x(n)−ax(n−1)?@A?@B?B%@
(%)
其 中 x(n)?@ 为 第 n 时 刻 的 语 音 信 号 a 为 预 加 重 系 数 满 足
0.9≤a≤18>7CC%a 通常取 8>75。
分帧加窗:利用语音的频率短时间内近似不变的特性将语音信号划分为帧
帧与帧之间首位交叠以保持语音信号的连续性 同时利用有限长度的 9
窗进行加权如公式())和公式(+)所示以减小时间窗两端处的坡度避免截
断处出现吉布斯效应。
y(n)=x(n)w(n)?@A?@3?@
())
w(n)=0.54−0.46cos2πnN−1,0≤n≤N−13?@A8>0-B8>-2)DED
"B%DDD8CC"B%
(+)
其中w(n)3?@为 9 窗函数N" 为每帧取样点数。
快速傅立叶变换:语音信号在时域维度仅展示振幅变化 无法充分表征语音
特性通过快速傅立叶变换将时域转换为频域表达获得信号的频率组成如公式
(-)所示。根据短时分析技术对各帧频谱近似处理得到功率谱以分析单位频带
内信号功率的变换。
X(k)=∑N−1n=0x(n)e−2πikn,0≤k≤NF?4@AG"B%A8?@B)DED48C4C
"
剩余12页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3962
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功