COMPLEX RATIO MASKING FOR SINGING VOICE SEPARATION
针对歌声分离的复比率掩膜
1、研究动机
音乐源分离对于卡拉 ok 和重新混音等应用程序很重要。以往的研究大多集
中在估计短时间傅里叶变换(STFT)的大小和丢弃相位信息上。然而对于歌唱语音
分离,相位可以显著提高分离质量。本文提出了一种用于声音和伴奏分离的
complex ratio masking 方法。该方法采用自注意的 DenseUNet 来估计各声源
STFT 的实分量和虚分量。还引入了一种简单的集成技术来进一步提高分离性能。
评价结果表明,该方法在分离的声音和伴奏方面都优于最近的最先进的模型。
2、研究方法
①研究相位对歌声分离的重要性
实验首先使用 SA-DenseUNet 网络估计 63 首不同信噪比的歌曲歌声和伴奏的
频谱图,然后将重新合成的混合相和纯净的目标的相位的 SDR 作比较,可以看出
纯净相的 SDR 比估计出的混合相高出 4 到 5dB 左右。由此可以看出相位的重要性。
评论0