基于波束形成的长短时记忆网络语音分离算法研究.docx资源-CSDN文库

版权申诉

6 浏览量 2023-02-23 20:01:18 上传评论收藏 555KB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

语音信号分离问题最早起源于鸡尾酒会问题，该问题致力于解决在嘈杂环境中分离出

重点关注的语音信号。经过学者不断努力，解决该问题的方法不断被创新，语音信号分离

速度和分离质量都有所提高

[1]

。随着社会进步和智能家居的发展，语音信号处理知识被广

泛应用于日常生活之中，对信号处理速度和质量提出了更高要求

[2,3]

。语音分离问题的解决

方法主要可以归结为两个大类，分别为基于信号变换的传统方式和近年来流行的深度学习

方式，传统分离方法主要是通过数字信号处理方式，对混合语音信号矩阵进行数学变化，

使分离后语音信号彼此之间达到最大独立性来完成信号分离

[4]

。该方法为语音信号分离领

域做出了一定贡献，但是其往往需要对混合语音信号施加限制条件，如 ICA 施加的是弱正

交约束，最终得到一个具有分布式的信号表征从而实现数据降维目的，矢量量化模型对观

测信号施加一种强约束，将数据拟合成两种彼此相互排斥模型，最终达到语音数据聚类目

的

[5,6]

。但是在实际生活中，这些限制条件并不容易满足，因而在实际应用过程中，使用该

方法的分离效果还有待提高。

随着计算机技术的不断发展，计算机运算速度逐渐提高，运算成本逐渐下降，基于深

度学习的语音信号处理方式被众多学者提出并加以研究，在语音信号处理领域取得了一定

成果

[7-10]

。深度学习网络(Deep Neural Network, DNN)结构是较早用于语音分离的网络，并

且取得了一定进展

[11]

。Wang 等人

[12]

最先提出将 DNN 应用于语音分离领域，并结合理想软

模板和理想二值模板完成了语音分离任务，并对两种模板的分离结果做出了具体阐述分

析。DNN 具有多层次结构，可以从训练数据中抽取出更加抽象的特征并具有非常强大的非

线性数据处理能力，但是其训练过程中存在大量参数计算，从而导致其模型收敛所需要时

间更长的问题。随后，有学者利用卷积神经网络(Convolution Neural Network, CNN)模型探

究了语音信号分离问题。Huang 等人

[13]

将 DNN 和 RNN 模型结合起来应用于该问题，并在

模型中加入了模板计算方法，该方法在模型中被称为确定层，通过确定层实现了对误差函

数最小化操作，通过对误差函数优化和网络模型优化得到比 DNN 更好的语音分离结果。

Hui 等人

[14]

提出一种基于 CMNN 的结构，该结构结合理想幅值掩蔽(Ideal Ratio Mask, IRM)

和 maxout 激活函数，实现对语音分离问题的建模，实验结果表明，相对于传统的 CNN 语

音分离效果具有较大提升。Chandna 等人

[15]

通过构建一种深度卷积网络模型，成功分离单

通道低延迟的混合语音信号，其分离语音信号中包含鼓声、贝斯和随歌曲变化的其他种类

乐器，在实验中研究人员还对该提出模型和多层感知器模型进行了对比实验，实验结果表

明该模型无论从信号分离效果还是分离速度上都优于多层感知器。2014 年，有学者提出了

深度堆叠网络(Deep Stacking Network, DSN)用于语音信号分离任务，该网络是由多个神经

网络堆叠而成的，并且后一层网络输入包含上一层网络输出和原始输入。Nie 等人

[16]

给出

了一种层级堆叠神经网络，并通过该网络对语音短时动态信息进行分析，此类网络提高了

原始信号的估计精确度，但是其对于语音信号每一个频带估计过程中相互间是独立操作，

没有考虑到频带相关性。其后有学者将循环神经网络(Recurrent Neural Network, RNN)应用

于语音分离实践中，相较于卷积神经网络只关心数据局部信息特征，而忽略了语音信号前

后联系的情况，RNN 是一种时序模型，其在某一时刻的输出可以在下一个时刻作用其自

身，因其结构具有循环链接特性，所以常用于时序信号的短时动态信息建模，并且其更加

适用于语音信号这种与数据出现次序有关的信息处理，在语音分离领域取得了巨大成功。

单层 RNN 因只有单个隐层，层级结构的缺乏令其在学习语音信号深层结构信息时具有缺

陷性。随后有学者针对该问题提出了基于深层循环神经网络(Deep Recurrent Neural

Network, DRNN)的语音信号分离方法，但是 DRNN 中还存在梯度消失问题有待解决

[17]

。

综上所述，深度学习方式解决语音分离问题主要依靠频域特征，没有对语音信号空间

特征进行有效利用。针对深度学习中 RNN 梯度消失问题，本文提出一种基于长短时记忆

网络(Long Short-Term Memory networks, LSTM)的语音分离方法，该方法既考虑到了语音信

号时序相关性，又克服了传统 RNN 算法梯度消失问题。当前深度学习模型都是对语音信

号进行频域特征提取，之后对该特征进行训练得到输入特征和关注语音信号频谱特征间非

线性映射关系，从而解决语音分离问题，但是该方法的不足之处在于其分离依据是目标语

音于干扰语音间频谱结构差异，若二者结构相似则其分离结果较差。针对该问题，本文结

合波束形成算法和 LSTM 网络，提出了改进算法，充分利用了语音信号的空间特征和频谱

特征并在具体实验中对分离结果进行验证。

2. 神经网络模型

2.1 神经网络算法流程及算法基础介绍

利用深度学习方式更好对输入和输出特征进行非线性拟合，相对于浅层网络，其更加

具有优势。一般来说，监督性语音分离系统流程如图 1 所示。

剩余11页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3648
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip