基于混合特征和多通道GRU的伪造语音鉴别方法.docx

版权申诉

文档资料

190 浏览量 2022-06-18 11:16:03 上传评论收藏 237KB DOCX 举报

资源推荐

资源详情

资源评论

0 引言

近年来以深度学习算法为核心驱动的深度伪造技术蓬勃发展产品覆盖面广

且效果逼真借助网络社交媒体的涟漪效应极易迅速传播形成影响。随之而来的

是安全风险的持续升级恶意应用的伪造语音将催生语音网络诈骗、虚假信息传

播等问题。为此研究语音真伪鉴别技术提升模型鉴伪能力的准确性与泛化性对

有效防范语音合成等技术带来的威胁具有重要意义。

伪造语音的鉴定是通过对语音特征的提取处理 利用自然语音和人工合成语

音之间的差异作出判断。对于多样的语音特征和不同的语音伪造方法 如何选取

最优特征组合并构建效率和准确度兼备的鉴伪模型是一个值得研究的问题。本

文通过引入时域频域特征融合的特征工程方法和设计高效灵敏的神经网络 最终

实现针对传统伪造和深度伪造语音的通用化鉴别。该方法在保持高检测效果和

减少特征损失的同时兼顾运行效率和模型精简同时引入注意力机制等前沿设计

方法以进一步增强效果提升了未知音源背景下的伪造语音鉴别能力。

1 相关研究

语音鉴伪的检测对象按技术手段可分为传统波形拼接、录音重放和利用机

器学习模型实现的从文本到语音（ ）的语音合成和语音转

换（）两类。由于人工智能和机器学习蓬勃发展参数生

成音频成倍增长且越发真伪难辨相应的检测方法主要集中在这种伪造方式上。

具体的检测手段由两部分组成前端用于参数化语音信号从中捕获反映与转换或

合成过程相关的伪影信息后端则要利用前端提取的语音特征确定语音信号是自

然语音还是合成语音。

语音伪造检测研究最初依赖于语音信号相关的先验知识聚焦新颖特征的提

出判别方法则多基于高斯混合模型（）、支持

向量机（ ）等机器学习算法。主流语音特征工

程如梅尔频率倒谱系数（ ）、线

性预测倒谱系数（）、感知线性

预测（）等已经在检测模型中进行了广泛应

用。 !"##



等人、! #'(!



等人使用包括标准  特征在内的多种

用于欺骗攻击检测的语音前端特征并比较了不同分类器在检测任务中的效果。

不难发现由于建模过程中高频段频谱信息细节的缺失参数生成语音的语音参数

动态变化往往小于天然语音的动态变化。因此 *"



等人着力于利用语音的高

分辨率表示进行鉴别检测效果确有提升。尽管这种针对特征差异的评估提供了

一种鉴伪方法但往往只针对一个特定的语音参数生成系统同样的对策可能不适

用于其他使用不同声学参数的生成器难以实现鲁棒的广义对抗。

应用广泛的特征大都基于线性功率谱频谱中包含的幅值信息经过线性平均

会趋近于零从而产生特征损失。,!"



等人摒弃传统的傅立叶变换使用恒定 .

变换（/.）从得到的倍频程功率谱中获得鉴别特征。此外

语音信号逐帧处理会不可避免地产生时间伪影为进一步提升检测性能#!"



等

人采用帧序列而非单个帧作为输入1(



等人结合长时调制和短时频谱特征引入

长期时间信息包含的丰富信息量提升特征的表征能力。

随着深度神经网络在监督学习中的优势凸显研究者关注特征提取、融合的

同时开始探索将卷积神经网络（""34"" ）等深

度监督学习方法用于语音特征提取



以及判别分类器



通过模型本身的能力获取

精细化的特征从而减少手工特征工程的使用。1!"



等人借助 '"" 中的隐

藏层学习精细特征、1(

$%8



等人提出轻量型卷积神经网络（9

""34""）、#

$%%



等人在 :" 的基础上修改得到的新模型结构

:)"这些伪造语音检测方法无需大量先验知识的支撑而是借助数据驱动带

来模型效能提升。此外语音作为一种连续信号相邻帧之间具有一定的时间关联

性循环神经网络（:""34:""）的加入能为长期依赖性建

模增强检测能力。相关研究中以 "" 为帧级特征提取器并将提取的信息输入

:"" 来学习深度特征的长期依赖性

$%)



%+



。基于类似思路;*</!!"#

$%-



等人

利用 "" 层替换门控循环单元神经网络（ :(:

""34:(）递归单元中的全连接层将帧级深度特征提取和话语级

身份向量融合到一个网络中。

上述方法对于  和  这两种伪造手段已具有较强的检测能力但在面对

重放攻击产生的欺骗时仍有不足。重放语音信号在录音过程中涉及录音设备的

特性、质量、声环境等多种因素在回放过程中根据声环境的不同还引入了其他

因素如混响。目前 9 能量算子（9*9;*;）已被用

于研究由混响引起的延迟和振幅变化从而对重放语音信号进行分析

$%0



但对于其

他因素的考量仍有待进一步探索。

本文提出的基于混合特征融合的多通道 :( 模型所做贡献如下：

%）在特征方面采用  特征与 n 阶差分参数融合的方式补充特征时序

信息=

)）在模型方面对应输入的特征采用了多通道 :( 结构充分挖掘不同输入

的多尺度信息并使用注意力机制有效降低特征维度提升模型检测效果。

2 伪造语音检测方法

)>%语音特征提取

语音特征提取是从原始语音波形中通过数字化模拟听觉系统对音频信号的

接收处理提取出表征说话人信息的个性化特征。在伪造语音检测任务中伪造语

音由于伪造方法本身的技术欠缺会不可避免地出现发声错误、韵律生硬、词句

重读不准确等不足因此提取出的特征能区别于真实语音特征可作为鉴别真实语

音与伪造语音的依据。语音特征提取的方法包含传统的手工特征工程 以及当前

利用深度学习算法自动化提取特征的方法但实验证明以原始音频作为输入从中

学习得到的特征相比手工特征工程优势不明显且大大提升模型复杂度

$%2



。因此本

文选择使用经典的 在增加时序信息的基础上作为模型输入。

梅尔频率倒谱系数的提取过程如图



所示主要包括预加重、分帧、加窗、

快速傅立叶变换、 滤波、离散余弦变换等步骤。

剩余12页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3962
资源: 1万+

基于混合特征和多通道GRU的伪造语音鉴别方法.docx

基于代码属性图和Bi-GRU的软件脆弱性检测方法.docx

GRU入门到实战——.docx

基于值导数GRU的移动恶意软件流量检测方法.docx

基于GRU循环神经网络的云数据中心应用故障预测方法.docx

融合近邻评论的GRU商品推荐模型.docx

基于FPGA的GRU神经网络飞行数据异常检测.docx

基于A-GRU的瓦斯浓度序列预测研究.docx

基于BI-GRU改进的Se...器油中溶解气体浓度预测方法

基于GRU神经网络的WGAN短期负荷预测模型.docx

基于MLR-SSA-GRU的混凝土坝裂缝开度组合预测模型.docx

基于GRU改进的LSTM门控制长短期记忆网络的股票交易策略设计.docx

网站流量预测任务第一名解决方案：从GRU模型到代码详解时序预测.docx

门控循环神经⽹络GRU.docx

深度学习课程作业：基于异构神经网络集成的锂电池寿命预测的方法.docx

LSTM+GRU+self-Attention.ipynb

cnn_gru-regression-master.zip

基于注意力机制的GRU神经网络安全态势预测方法.pdf

GRU-neural-networks.zip

Python进行GRU和LSTM数据333.csv

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

matlab批量读取excel表格数据并处理画图

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

STM32F103C8T6中文数据手册

（头歌）计算机组成原理存储系统设计（HUST）1-7关答案

最新资源