论文研究-基于非平滑非负矩阵分解语音增强.pdf

所需积分/C币:9 2019-09-10 09:09:36 624KB .PDF
21
收藏 收藏
举报

针对非负矩阵分解稀疏性不够,通过引入平滑矩阵调节字典矩阵和系数矩阵的稀疏性,提出基于非平滑非负矩阵分解语音增强算法。算法通过语音和噪声的先验字典学习构造联合字典矩阵;然后通过非平滑非负矩阵分解更新带噪语音在联合字典矩阵下的投影系数实现语音增强;同时通过滑动窗口法实时更新先验噪声字典。仿真结果表明,该算法相对非负矩阵分解语音增强算法和MMSE算法具有更好的抑制噪声能力。
L622017,53(7) Computer Engineering and4 pplications计算机工程与应用 矩阵对应的元素不全为零,通过矩阵S与其相乘,非零 NMF分解过程中的零值问题,避免了算法陷入局部最训窗m图S小AM,纯涂语 分 元素与零元素相加使得最终结果不为零,从而解决了 法分解」气字典W 联合字 典W )、「分帧 优化,因而更加容易得出算法最优解。同时,加入平滑 加窗FT+N→NM第,噪声字 法分解 典 矩阵S不仅具有平滑效果,解决了岺值缺陷问题,而且 分帧 FFT 在一定程度加快了算法的收敛速度 加窗 nNMF算 由式(11)、(10)与式(7)、(6)对比可知W和I在 增强阶段 相位 法分解 迭代过程中相当于右乘或左乘了一个平滑知阵S,通过 分帧 V-W“H 加窗 逆FTS 平滑矩阵S与其相乘来控制稀疏性。表1为NMF方法 图1算法流程图 和 nsNME方法的稀疏性比较,其中对于n维的矢量z 的稀疏性计算公式如下: 两个部分。语音重构,对带噪语音信号进行FFT变换, 以∑ 计算幅度谱的绝对值;然后将先验的联合字典矩阵W 稀疏性(x)= (12)作为固定的带噪语音字典矩阵,通过式(2)不断更新带 1 噪语音在字典矩阵下的投影系数,并结合目标西数D1 表1NMF和 nSNMF的模型的稀疏性比较 得到系数矩阵H=H,Hn;最后通过字典矩阵W,和 重构信号可W的半均H的平均 系数矩阵H、重构语音实现语音増强。 方法稀疏约束0解释性/%稀疏性稀疏性 对于第二部分在线噪声字典学习,为了适应噪声的 NMH 99.99 ().64 变化,本文采用滑动窗口法来实现噪声字典矩阵的实时 0.71 更新。窗口中存储了最近Ⅰ帧估计的噪声谱,当新一帧 99.99 0.21 增强过后,噪声窗向左移一个单位,当前帧的噪声谱估 计更新噪声窗最右侧一帧;然后通过非平滑非负矩阵分 naME 解更新先验的噪声字典矩阵,从而实现先验联合字典矩 0.6 99.30 0.26 阼的更新。在这里,噪声窗凵的大小L设置需要权衡 0.7 98.36 个问题:如果窗口太小导致过度适应,将会产生增强后 0.8 0.52 94.24 0.42 语音的损害;如果窗口人大则无法准确适应噪声的变 化,并且加大了计算量。为了尽可能地避免过度适应而 从表1可以看出 nSNMF模型的稀疏性要比NMF模导致的语音损害,本文选择L=30 型的稀疏性妤,∏随着平滑因子θ的增人,整体稀疏性 在增强,但是重构信号的可解释性在下降。综合考虑5实验结果与分析 W与H的整体稀疏性和重构信号的可解释性,从表 实验中,本文将采用标准1M的语音库中若干采 知,当θ=0.5时,字典矩阵和系数矩阵具有较好的稀疏样频率为16kHz纯净语音信号。噪声取自标准的 性,同时重构信号又县有较好的解释性,因此平滑因子 Noise92噪声库 babble噪声、F16飞机噪声和M09坦克 选择为0.5 噪声。通过 Matlab将纯净语吝信号与噪声信号混合,分 别生成信噪比为-10dB、-5dB、0dB、5dB和10dB 4非平滑非负矩阵分解语音增强 带噪语音信号。 本文提出的非平滑非负矩阵分解语音增强算法包 将本文方法与文献[8]的非负矩阵分解语音增强方 拓训练和增强两个阶段。假设语音信号和噪声信号都法和文献[5的基于广义伽马分布的最小均方误差估 是加性信号,则带噪语音信号yt)可以表示为 计的语音増强方法进行比较。分别采用对数频谱距离 yt)=si(t)+n(t) (13 ( Log Spectral Distance,LSD)和客观质量评估方法 其中,s)为纯净的语音信号,mt)为加性噪声信号。算( Perceptual Evaluation of Speech Quality,PEsQ)对语 法可以分为训练和增强两个阶段,整体流程图如图1音增强的性能进行比较。ⅠSD的定义如下 所示 在训练阶段,首先分别对噪声和语音信号进行FFT IS(k l)- LSD= 101 (14) 换,求谱幅度的绝对值;然后采用 saME算法对噪声谱 和语音谱进行分解得到噪声字典矩阵Wn和纯净语音其中,M表示语音信号的帧数,S(k,和Sk,D分别为 宇典矩阼W、,并建立先验联合字典矩阵W=ⅣW。Wa。n)和sm)的短时傅里叶变换的第k帧的第l个频谱 语音增强阶段分为语音重构和噪声字典在线更新分量 王波,于凤芹,陈莹:基于非平滑非负矩阵分解语音增强 2017,53(7)163 表2LSD值改善情况表 输入信 Babble噪声 F16飞机唤声 M109坦克噪声 嶸比dB文献[15算法文献8]算法本文算法文献[5算法文献8算法本文算法文献I5算法文献8算法本文算法 2.46 10 2.600 2.104 2.013 ? 2.049 1.859 2.197 2.092 1.967 1.817 1.652 1.493 l.823 l.6.39 1.489 l.780 1.628 1.540 1.5[}3 1468 050 1.429 1.125 1.240 1.194 L.221 1.112 1.121 0.964 0.949 1.192 1.098 1.02 0.984 0.911 0.908 表3PESQ佰改譯情况表 输入信Babl噪声 F15飞机声 M09坦克噪声 噪比文献15算法文谳算法木文算法文献算法文献⑧算法木文箅法文献1算法文献8算法木文算法 1.182 1.547 050 1.260 1.453 1.591 1.512 1.613 1.655 1.799 1.853 2.052 1.601 1.732 1816 1.932 2.021 2. 2.447 2.005 2279 2.612 2.768 10 2.398 2.574 725 2.564 2.699 2.839 2.829 2.885 2.943 表2和表3分别给出了文献[15]方法、文献[8]方法音来自标准 TIMIT语音库,噪声来自标准 noise-92噪声 和本文方法在不同噪声和信噪比条件下的ⅠSD值和库中 Babble噪声。由比较可知本文算法增强后的语音 PESQ值的对比情况。由表可以看出,相比文献[15和质量更好,且语音失真度最小同时在主观试听方面,本 文献[8]方法,本文方法县有更好的抑制噪声效果。由文方法增强后的语音质量最好。 于语音在时频城只有稀疏性,通过平滑知阵可以有效地 表4给出了文献[8算法和本文算法的 Matlab的仿 控制字典矩阼和系数矩阼的稀疏性,以及消除零值效应真时间,通过表4可以看出两种算法的仿真时间相近 所导致的局部最优化问题;同时在线学丬对噪声变化具尽管加入在线字典学习增加了计算量,但是通过引入平 有很好的自适应性。因此,本文方法增强后的语音质量滑矩阵加快了算法的收敛速度,减少了迭代时间。 会更好。 图2为文献[15方法、文献[8]方法和本文方法在 表4 Matlab仿真时间 0dB信噪比条件下的语音增强后的语谱图比较,其中语 语音增强算法 Matlab仿真时间/s NMF语音增强算法 5.32 4000 本文算法 5.27 2000 50010001500200025003000 400045005000 6结束语 (a)纯净语音语谱图 针对非负矩阵分解稀疏性不够,本文通过引入平滑 84000 矩阵来控制字典矩阵和系数矩阵的稀疏性,提出了基于 时2000 非平滑非负矩阵分解语音增强算法。在迭代更新中,平 500100015002000250030003500400045005000 滑矩阵可有效地消除字典矩阵和系数矩阵的岺值问题 (b)带噪语音语谱图 避免算法陷入局部最优化;同时通过滑动窗口法实现噪 N4000 2000 声字典的实时更新,以实现对噪声的自适应性。仿真实 验结果表眀,本文算法相对非负矩阵分解语音增强算法 500100015002000250030003500400045005000 和MMSF算法具有更好的抑噪声能力。尽管加入了在 (c)文献[5算法增强语谱图 线噪声字典学习增加了计算量,但是通过引入平滑矩阵 4000 加快了算法的收敛速度,因此通过 Matlab仿真时间计算 2000 发现,本文算法和NMF语音増强算法仿真时间相近。 500100015002000250030003500400045005000 (d)文献[8算法增强语谱图 参考文献 N4000 好2000 [1] Ren Y, Johnson M T Auditory coding based speech enhan- cerment[C]/Proceedings of IEEE International Conference on 500100015002000250030003500400045005000 Acoustics, Speech and Signal Processing(ICASSP), 2009 e)本文算法增强语谱图 4685-4688 图2语谱图 [2 Flynn R, Jones E Robust distributed speech recognilion 1642017,53(7) Computer Engineering and4 pplications计算机工程与应用 using speech enhancement J.EEE Transactions on Con- [10 Mohammadiha N, Taghia J, Leijon A Single channel sumer Electronics, 2008. 54(3): 1267-1273 speech enhancement using Bayesian NMF with recursive [3] Lee DD, Seung H S Learning the parts of objects by non temporal updates of prior distributions[C]/Proceedings negative matrix factorization [J]. Nature, 1999, 401(10) of IFFF International Conference on Acoustics, Speech 788-791 and Signal Processing(ICASSP), 2012: 4561-4564 4」刘雪松,王斌,张立明基于非负矩阵分解的高光谱遥感图111 Mohammadia N, Smaragdis P, Leijon A. Supervised 像混合像元分解红外与毫米波学报,2011,30(1):27-32. and unsupervised speech enhancement using nonnega 5 Zhany T, Fany B, Tany YY, et al.Topology preserving live matrix factorization[JJ. IEEE Transactions on Audio non-negative matrix factorization for face recognition [J] Speech and Language Processing, 2013, 21(10): 2140- IEEE Transactions on Image Processing. 2008. 17(4) 2151 574-584 [12] Hoyer P O Non-negative matrix factorization with [6 Ozerov A, Fevotte C Multichannel nonnegati natrix sparseness constraints[J]Journal of Machine Learning factorization in convolutive mixtures for audio source Research,2004,5(1):1457-1469 separation[J] IEEE Transactions on Audio, Speech, and [13 Pascual-Montano A, Carazo J M, Member S, et al. Nons Language Processing, 2010, 18(3): 550-563 mooth Nonnegative Matrix Factorization(nSNMF)[J] 7] Akarsh K A, Selvi R S Speech enhancement using non IEEE Transactions on Pattern Analysis and machine negative matrix factorization and enhanced NMF[CJ Intellingence,2006,28(3):403-415 Proceedings of IEEE International Conference on Circuit, [14] Erkelens J S, Hendriks R C, Heusdens R, et al. Min Power and Computing Technologies(ICCPCT), 2015: 1-7 mum mean-square error estimation of discrete Fourie 18 Wilson K, Raj B, Smaragdis P, et al. Speech denoising using coefficients with generalized gamma priors].IEEE nonnegative matrix factorization with priors[C]/Proceedings Transactions on Audio, Speech and Language Processing of Ife internat Conference on Acoustics, Speech 2007,15(6):1741-1752 and Signal Processing, 2008: 4029-4032 [15] Hao J, Lee t W, Sejnowski T JSpeech enhancement 19 Cemgil A T Bayesian inference for nonnegative matrix using gaussian scale mixture models JJ.IEEE Transac factorisation models[J Computational Intelligence and tions on Audio, Speech and Language Processing, 2010 Neuroscience, 2009. 432:1-17 18(6):1127-1136 (上接132页) IEEELACM/IFIP International Conference on Network [7 Yao Guang, Bi Jun, Li Yuliang, et al.On the capacitated &e service Management, 2013 18-25 controller placement problem in software defined net [121 Yazici v, Sunay M O, Ercan A O Controlling a soft- works[J].IEEE Communications Letters, 2014,18(8) ware-defined network via distributed controllers[C]//Pro 1339-1342 ceedings of the 2012 NEM Summit, 2012: 16-20 [8]Hock D, Hartmann M, Gebert S, et al. Parelo-optimal resil- [13 Erickson D The beacon openflow controller[C]/Proceeding of the 2nd ACM SIGCOMM Workshop on Hot Topics ient controller placement in SDN-based core networks[C]i in Software Defined Networking, 2013: 13-18 Proceedings of the 25th International Teletraffic Congress [14] Spring n, Mahajan R, Wetherall D Measuring ISP (ITC), Shanghai, China, September, 2013: 6-12 ogies with rocketfuel[J. ACM Sigcomm Computer Com 19 Dixit A, Hao F, Mukherjee S, et al.Towards an elastic munication Review, 2004, 12(1): 2-16 distributed SDN controller[C]/Proceedings of the 2nd ACM [15 Lantz B, Heller B, McKeown NA network in a laptop SIGCOMM Workshop on Hot Topics in Software Rapid prototyping for software-defined networks[C]/ Defined Networking( hotSDN:13),2013: 7-12 Proceedings of ACM Workshop on Hot Topics in Net [10] Cheng Guozhen, Chen Hongchang Game model for switch works. 2010 migrations in software-delined nelwork[jj. electronics [16 IpeRf[eb/ol1 [2015-09-30).httP : i/iperf. sour Letters,2014.50(23):1699-1700 [17 Gebert S, Pries R, Schlosser D, et aL. Internet access trallie l11 Bari M F, Roy A R Dynamic controller provisioning measurement and analysis[J]. Traffic Monitoring and anal in software defined networks[C]/Proceedings of the ysis,2012,7189(8):29-42

...展开详情
试读 5P 论文研究-基于非平滑非负矩阵分解语音增强.pdf
立即下载
限时抽奖 低至0.43元/次
身份认证后 购VIP低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-基于非平滑非负矩阵分解语音增强.pdf 9积分/C币 立即下载
1/5
论文研究-基于非平滑非负矩阵分解语音增强.pdf第1页

试读结束, 可继续读1页

9积分/C币 立即下载