基于深度学习特征融合和联合约束的单通道语音分离方法.docx

版权申诉

191 浏览量 2023-02-23 20:06:21 上传评论 1 收藏 764KB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

在日常生活中，语音是人类沟通的重要媒介之一。当两个说话人同时在讲话时，人类

可以准确分辨他们各自说了哪些话；但对于智能机器来说却不是一件轻松的事情，这可能

导致人机交互的体验变差。单通道语音分离是指将目标语音从单个通道混合语音信号中分

离出来，属于盲源分离

[1-3]

的一个分支。经典的基于短时谱估计的单通道语音分离算法有谱

减法

[4]

、维纳滤波法

[5]

等。随着 AI 席卷全球学术研究的各个领域，深度学习得到了迅猛的

发展。近年来，深度人工神经网络凭借其优秀的建模能力、高度抽象的预测能力以及优秀

的关系映射能力，成为当下计算机领域的宠儿。近几年来，基于深度学习的单通道语音分

离算法在语音分离领域中被广泛的应用和研究

[6-10]

。

根据预测目标的不同，基于深度学习的语音分离方法可分为基于时频(T-F)掩蔽的方法

和基于频谱映射的方法。基于时频掩蔽的方法旨在学习从混合信号到时频掩蔽的映射，然

后使用估计的掩蔽和混合信号计算得到分离后的语音。Wang

[11]

于 2005 年提出了一种理想

二值掩蔽(Ideal Binary Mask, IBM)作为训练目标，用于听觉场景分析。IBM 将语音分离问

题抽象为一个二分类问题，如果一个时频单元的信噪比超过了阈值就判定为 1，否则为 0。

Kim 等人

[12]

于 2009 年利用高斯混合模型(Gaussian Mixture Model, GMM)来学习目标和干扰

的概率分布，然后用贝叶斯分类器来估计 IBM。Han 等人

[13]

用支持向量机来估计 IBM，实

验得出用支持向量机估计 IBM 比基于 GMM 的效果要好。由于 IBM 是一种硬判决，很多

时候会造成目标语音信息丢失。因此，文献[14]于 2006 年提出了一种比值型的训练目标，

即理想比值掩蔽(Ideal Ratio Mask, IRM)，该训练目标可以基于能量、幅度、功率等的比

值。大量的研究发现，相比于 IBM，IRM 能够更好地保留分离目标的语音信息。Zhang 等

人

[15]

提出一种利用组合学习(Deep Neural Network, DNN)来预测 IRM 的方法，该方法层层

叠加多个深度神经网络 DNN，多层 DNN 联合估计，这使得估计的 IRM 更加准确。Huang

等人

[16]

构建了一个用于语音分离的循环神经网络(Recurrent Neural Network, RNN)，IRM 作

为一个处理层嵌入到网络的输出层，实验验证了该方法优于 NMF(Nonnegative Matrix

Factorization)方法。基于频谱映射的方法是一种从混合语音当中直接学习目标语音频谱的

估计方法。Du 等人

[17]

利用输入语音信号的信噪比正负性分别训练正负 DNN，用于估计目

标语音的幅度谱，在分离系统后接入语音识别系统用来判断分离语音质量，实验验证该方

法比基于 GMM-HMMs 模型的效果好。在此之后，Wang 等人

[18]

又提出一种基于性别检测

的多 DNN 的无监督单通道语音分离算法。首先利用 DNN 进行性别组合检测，然后在各个

子类中选择相应的 DNN 分离模型用于估计目标语音幅度谱，分离语音的质量得到了提

升。由于在一般场景中基于频谱映射比基于时频掩蔽的方法性能要差，目前基于深度神经

网络的单通道语音分离算法大多基于时频掩蔽方法。

基于深度学习的语音分离算法是在损失函数约束下实现深度神经网络参数训练的，损

失函数设置的好坏对系统性能有直接的影响。Li 等人

[19]

提出了一种基于语音频谱变化感知

损失函数的 DNN 语音分离算法，该算法的损失函数与语音频谱变换相关，并引入了增益

函数，使得分离语音质量比传统方法要高。我们团队

[20]

提出了一种基于双输出 DNN 的单

通道语音分离联合约束算法，该算法的损失函数不仅约束了双输出的掩蔽误差，还约束了

双输出分离信号掩蔽的联合关系，使得分离语音的性能得到了提升。传统的基于掩蔽的单

输出语音分离算法的损失函数只考虑了预测掩蔽值和真实值的误差，这使得分离后的语音

与纯净语音之间误差较大。本文提出了一种新的联合约束损失函数，该损失函数不仅约束

了预测掩蔽值和真实值的误差，还惩罚了预测值对应幅度谱和目标语音幅度谱之间的误

差。需要强调的是，文献[20]针对的是双输出分离系统，约束了双输出信号掩蔽间的联合

关系。而本文针对更常用的单输出分离系统，联合约束了掩蔽和幅度谱的预测误差，并且

引入正则系数 α 调节二者的约束力度。另外，在单通道语音分离算法中，常常利用混合语

音幅度谱作为输入特征来训练分离模型，由于输入特征单一，模型的分离效果有限。为了

解决该问题，本文提出一种基于深度学习特征融合和联合约束的单通道语音分离方法，该

方法首先基于具有融合功能的卷积神经网络(Convolutional Neural Network, CNN)得到融合

特征，然后在联合损失函数约束下训练语音分离模型来提升单通道语音分离效果。

2. 基于深度学习的单通道语音分离

2.1 语音分离模型

根据语音混合方式常用的语音分离模型分为两种：线性混合语音模型和卷积混合语音

模型。线性混合语音模型是指将多个语音信号线性加权叠加形成混合信号，这个过程不考

虑语音信号之间的相关性和时延。卷积混合语音模型则是由各语音信号相互卷积而混合的

信号模型，可能存在时延。本文研究的信号分离模型为线性混合模型，可以表示为

\boldsymboly(n)=\boldsymbolA×\boldsymbols(n),1≤n≤N\boldsymboly(n)=\boldsymbolA×\boldsymbols(n),1≤n≤N

(1)

其中，

\boldsymboly(n)=[y1(n),y2(n),⋯,yM(n)]T∈\boldsymbolRM×1\boldsymboly(n)=[y1(n),y2(n)

,⋯,yM(n)]T∈\boldsymbolRM×1 是接收到的 MM 路混合语音信号在时域的表示，nn 是指离

散时间，NN 是时间总点数，

\boldsymbolA=⎛⎝⎜⎜⎜⎜⎜a11a21⋮aM1a12a22⋮aM2⋯⋯⋱⋯a1Ka2K⋮aMK⎞⎠⎟⎟⎟⎟⎟∈\bol

dsymbolRM×K\boldsymbolA=(a11a12⋯a1Ka21a22⋯a2K⋮⋮⋱⋮aM1aM2⋯aMK)∈

\boldsymbolRM×K 是混合模型矩阵，

\boldsymbols(n)=[s1(n),s2(n),⋯,sL(n)]T∈\boldsymbolRK×1\boldsymbols(n)=[s1(n),s2(n),

⋯,sL(n)]T∈\boldsymbolRK×1 是 K 路源信号。语音分离就是已知

\boldsymboly(n)\boldsymboly(n)来求\boldsymbols(n)\boldsymbols(n)。当 M<KM<K 且

M=1M=1 时该模型为单通道语音分离模型。

2.2 基于深度学习的单通道语音分离架构

深度神经网络具有强大的数据挖掘能力，可以很好地映射网络输入输出间的非线性关

系。与传统基于现代信号处理理论的单通道语音分离算法相比，基于深度学习的单通道语

音分离算法在语音分离模型的构建上更加准确，语音分离也更加有效。基于深度学习的单

通道语音分离主要学习混合语音到预测目标的映射关系，该映射关系由深度神经网络的参

数决定。常用的深度神经网络有 DNN, CNN 和 RNN 等。CNN 的卷积层提取小块区域特

征，可以很好地保留语音特征的空间信息，另外池化层对冗余信息进行筛选，可以减少计

算量，CNN 具有更为出色的语音特征映射能力。以两个源语音混合信号的分离为例，基于

CNN 网络的单通道语音分离系统框图如图 1 所示。

图 1 基于 CNN 的单通道语音分离系统框图

下载: 全尺寸图片幻灯片

基于 CNN 网络的语音分离包含两个阶段：训练阶段和分离阶段。在训练阶段，提取

两个源语音信号的声学特征以及两源语音混合后信号的声学特征，对其进行归一化等处理

后，利用这些特征和预测目标在损失函数的约束下训练 CNN。在测试阶段，首先提取混合

语音的声学特征，然后将其作为训练好的 CNN 的输入得到分离语音的预测目标，结合相

位信息得到频域信号，最后通过短时傅里叶逆变换得到重构语音的时域波形。

3. 基于 CNN 特征融合的单通道语音分离联合约束算法

3.1 具有融合功能的 CNN 分离模型

在基于传统 CNN 结构的语音分离中，当输入单一特征时得到的分离语音质量有限。

主要由于 CNN 对语音特征信息进行高度抽象化，导致部分全局信息丢失。为了提高分离

语音的质量，本文提出了一种含特征融合层的 CNN 结构，该结构在传统 CNN 基础上增加

了特征融合层，利用 CNN 提取多通道输入特征的深度特征，在融合层中将深度特征与声

学特征融合，该融合特征用于训练语音分离模型。

受图像信号 RGB 处理方式启发，本文将语音多种声学特征以多通道形式作为 CNN 的

输入，提取语音更加全面的深度特征。在基于深度学习的单通道语音分离中，混合信号的

剩余14页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3663
资源: 1万+

基于深度学习特征融合和联合约束的单通道语音分离方法.docx

基于深度学习的厨师帽和口罩佩戴的检测方法.docx

一种基于YoloV3深度学习的双目快速距离测量方法.docx

一种基于YOLOv3深度学习的混凝土裂缝识别方法.docx

现代机器学习 基于深度学习的图像特征提取.docx

基于混合特征和多通道GRU的伪造语音鉴别方法.docx

基于深度学习的智能安防实时开窗检测报警系统及方法研究.docx

一种基于微信小程序的电视语音遥控系统及方法.docx

基于形态非抽样小波的实时图像融合方法.docx

基于深度学习的化妆品推荐系统的设计与实现任务书.docx

基于深度学习的重复报警抑制方法.docx

基于深度学习YOLOv3算法的前车车门打开检测方法及装置.docx

人工智能论文：基于深度学习的目标检测技术综述.docx

基于机器学习的羽毛球赛事视频精彩片段提取方法.docx

基于深度学习图像特征匹配的双目测距方法.docx

一种基于yolov3和CNN的盘头标识识别方法.docx

一种基于改进型YOLOv3卷积神经网络的夜间车辆检测方法.docx

基于卷积非负矩阵部分联合分解的强噪声单声道语音分离.docx

一种基于信任度和专家用户的协同过滤推荐方法.docx

基于神经网络多分类器融合系统的人脸识别方法_周健.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

李飞飞自传 我看见的世界 The World I see

农村公交与异构无人机协同配送优化

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

4个亲测好用的ChatGPT4渠道

基于LSTM的财务因子预测选股模型.zip

最新资源

现代机器学习基于深度学习的图像特征提取.docx

李飞飞自传我看见的世界 The World I see