没有合适的资源?快使用搜索试试~ 我知道了~
基于波束形成的长短时记忆网络语音分离算法研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 6 浏览量
2023-02-23
20:01:18
上传
评论
收藏 555KB DOCX 举报
温馨提示
试读
12页
基于波束形成的长短时记忆网络语音分离算法研究.docx
资源推荐
资源详情
资源评论
1. 引言
语音信号分离问题最早起源于鸡尾酒会问题,该问题致力于解决在嘈杂环境中分离出
重点关注的语音信号。经过学者不断努力,解决该问题的方法不断被创新,语音信号分离
速度和分离质量都有所提高
[1]
。随着社会进步和智能家居的发展,语音信号处理知识被广
泛应用于日常生活之中,对信号处理速度和质量提出了更高要求
[2,3]
。语音分离问题的解决
方法主要可以归结为两个大类,分别为基于信号变换的传统方式和近年来流行的深度学习
方式,传统分离方法主要是通过数字信号处理方式,对混合语音信号矩阵进行数学变化,
使分离后语音信号彼此之间达到最大独立性来完成信号分离
[4]
。该方法为语音信号分离领
域做出了一定贡献,但是其往往需要对混合语音信号施加限制条件,如 ICA 施加的是弱正
交约束,最终得到一个具有分布式的信号表征从而实现数据降维目的,矢量量化模型对观
测信号施加一种强约束,将数据拟合成两种彼此相互排斥模型,最终达到语音数据聚类目
的
[5,6]
。但是在实际生活中,这些限制条件并不容易满足,因而在实际应用过程中,使用该
方法的分离效果还有待提高。
随着计算机技术的不断发展,计算机运算速度逐渐提高,运算成本逐渐下降,基于深
度学习的语音信号处理方式被众多学者提出并加以研究,在语音信号处理领域取得了一定
成果
[7-10]
。深度学习网络(Deep Neural Network, DNN)结构是较早用于语音分离的网络,并
且取得了一定进展
[11]
。Wang 等人
[12]
最先提出将 DNN 应用于语音分离领域,并结合理想软
模板和理想二值模板完成了语音分离任务,并对两种模板的分离结果做出了具体阐述分
析。DNN 具有多层次结构,可以从训练数据中抽取出更加抽象的特征并具有非常强大的非
线性数据处理能力,但是其训练过程中存在大量参数计算,从而导致其模型收敛所需要时
间更长的问题。随后,有学者利用卷积神经网络(Convolution Neural Network, CNN)模型探
究了语音信号分离问题。Huang 等人
[13]
将 DNN 和 RNN 模型结合起来应用于该问题,并在
模型中加入了模板计算方法,该方法在模型中被称为确定层,通过确定层实现了对误差函
数最小化操作,通过对误差函数优化和网络模型优化得到比 DNN 更好的语音分离结果。
Hui 等人
[14]
提出一种基于 CMNN 的结构,该结构结合理想幅值掩蔽(Ideal Ratio Mask, IRM)
和 maxout 激活函数,实现对语音分离问题的建模,实验结果表明,相对于传统的 CNN 语
音分离效果具有较大提升。Chandna 等人
[15]
通过构建一种深度卷积网络模型,成功分离单
通道低延迟的混合语音信号,其分离语音信号中包含鼓声、贝斯和随歌曲变化的其他种类
乐器,在实验中研究人员还对该提出模型和多层感知器模型进行了对比实验,实验结果表
明该模型无论从信号分离效果还是分离速度上都优于多层感知器。2014 年,有学者提出了
深度堆叠网络(Deep Stacking Network, DSN)用于语音信号分离任务,该网络是由多个神经
网络堆叠而成的,并且后一层网络输入包含上一层网络输出和原始输入。Nie 等人
[16]
给出
了一种层级堆叠神经网络,并通过该网络对语音短时动态信息进行分析,此类网络提高了
原始信号的估计精确度,但是其对于语音信号每一个频带估计过程中相互间是独立操作,
没有考虑到频带相关性。其后有学者将循环神经网络(Recurrent Neural Network, RNN)应用
于语音分离实践中,相较于卷积神经网络只关心数据局部信息特征,而忽略了语音信号前
后联系的情况,RNN 是一种时序模型,其在某一时刻的输出可以在下一个时刻作用其自
身,因其结构具有循环链接特性,所以常用于时序信号的短时动态信息建模,并且其更加
适用于语音信号这种与数据出现次序有关的信息处理,在语音分离领域取得了巨大成功。
单层 RNN 因只有单个隐层,层级结构的缺乏令其在学习语音信号深层结构信息时具有缺
陷性。随后有学者针对该问题提出了基于深层循环神经网络(Deep Recurrent Neural
Network, DRNN)的语音信号分离方法,但是 DRNN 中还存在梯度消失问题有待解决
[17]
。
综上所述,深度学习方式解决语音分离问题主要依靠频域特征,没有对语音信号空间
特征进行有效利用。针对深度学习中 RNN 梯度消失问题,本文提出一种基于长短时记忆
网络(Long Short-Term Memory networks, LSTM)的语音分离方法,该方法既考虑到了语音信
号时序相关性,又克服了传统 RNN 算法梯度消失问题。当前深度学习模型都是对语音信
号进行频域特征提取,之后对该特征进行训练得到输入特征和关注语音信号频谱特征间非
线性映射关系,从而解决语音分离问题,但是该方法的不足之处在于其分离依据是目标语
音于干扰语音间频谱结构差异,若二者结构相似则其分离结果较差。针对该问题,本文结
合波束形成算法和 LSTM 网络,提出了改进算法,充分利用了语音信号的空间特征和频谱
特征并在具体实验中对分离结果进行验证。
2. 神经网络模型
2.1 神经网络算法流程及算法基础介绍
利用深度学习方式更好对输入和输出特征进行非线性拟合,相对于浅层网络,其更加
具有优势。一般来说,监督性语音分离系统流程如图 1 所示。
图 1 监督性语音分离系统流程图
下载: 全尺寸图片 幻灯片
图 1 给出了监督性学习实现步骤,主要分为 5 个子模块,首先通过时频分解模块将语
音时域信号转换成 2 维时频信号;而后对语音信号进行特征提取操作,常用方法包括短时
傅里叶变换谱、梅尔频率倒谱系数等;第 3 个模块是确定分离目标,后续分离过程中将利
用此分离目标并结合观测信号分离出多路原始信号。分离目标选择和深度学习最终任务有
关,常用分离目标有目标语音幅度谱估计和时频掩蔽目标等;第 4 个部分为模型训练过
程,通过大量观测信号和纯净语音数据之间进行非线性映射,训练过程中动态调整神经网
络参数,使其达到更好拟合效果;分离系统最后一个阶段是语音信号波形合成阶段,该阶
段利用训练得到的分离模型对观测信号进行处理,而后通过傅里叶逆变换得到目标语音波
形信号
[18]
。
RNN 模型可以利用所有时刻的输入信息,并将其映射到不同输入单元中,对于语音
信号等具有上下文关系的信息处理具有积极意义。但是 RNN 神经网络存在梯度消失问
题,即某一时刻输出无法长时间对下一时刻造成影响,随着网络传播,作用效果越来越
小,导致网络中单元只受到其附近单元影响,因而其并不适合处理具有长期依赖性的问
题。
为解决 RNN 梯度消失问题,有学者提出了一种 LSTM 网络,该网络和 RNN 具有相
同组织形式,但是相较于 RNN,其神经元内部结构有所不同。LSTM 的一个标准神经元包
括了输出门、遗忘门和输入门。3 个门相互配合使得信息可以长时间保存在网络中并进行
上下文信息传递。当网络中输入门关闭时,就不会有新网络输入影响 LSTM 状态,那么可
剩余11页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3648
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功