论文研究-基于听觉场景分析的音乐主基频提取算法 .pdf

所需积分/C币:11 2019-08-15 17:37:24 585KB .PDF
8
收藏 收藏
举报

基于听觉场景分析的音乐主基频提取算法,李冰瑶,刘刚,主旋律提取是众多研究领域,如哼唱搜索和歌曲结构分析等的基础。主旋律的定义是音乐中人声的基频曲线。计算听觉场景分析(CASA)��
山国武技记文在丝 应相对应的数由式所示。其中τ代表时延,代表离散时间 x(c, mT-(c, mT.-nT-tT AC, ,t)=- 式 x(c, mT -)x(c, mt-nt,-tT 代表帧移,是采样时间问隔(本文中所用的信号的采样频率是 米 样时间是 ,)。滤波器响应的周期性是通过的峰值来表示的,相应的时间延 迟代表了周期。我们在rT∈[0ms,5m]的范围内计算,这代表了从到 范 围内的合理的基音频率 同时,本算法还提取跨通道相关。跨通道相关代衣的是相邻的两个滤波通道的响应之间 的相关性,确定滤波器组是不是对同一音源产生的响应这里我们计算两个时频单元/n 和H2+1的跨通道互相关。如下式所示。 C(c, m) ∑ [(c,m,z)-A(C,m)[K(c+1,m,τ)-H(c+1,m) 式 L(,m,x)-c,m)2∑[A+1,m,x)-水(+1,m2 当输入信号中含有周期信号时,高频滤波器对信号的多谐波产生响应,这些谐波被称为 不桷定性谐波。不确定性谐波在滤波器的咼频区域激发的响应是符合幅度调制的,通过半波 整流和带通滤波来提取关于目标语音的包络起伏,并且提取目标语音在预测基频处的带通滤 波器响应。然后计算的包终A(c,m,z)和响应包络的互通道相关C(Cm) 时频单元标记 独立时频单元标记 这里我们采用一个简单的方法,当且仅当单元相应的滤波器响应或者响应的包络与 目标语音有一致周期性的时侯,就将该单元标记为。如上部分讨论,滤波器响应的周 期性是由其自相关函数的峰值点所决定的。τ(m)代表在帧处的预测基频周期,相 应的会在接近τ(m)的附近有一个峰值。 本文提出了一种基于预测基频来对时频单元进行标记的新的算法。我们构造一个分类 尜,这个分类器集合∫白相关和瞬时频率两种特征来标记时频单元。f(c,m)代表滤波器响 应中对应μ单元的预测平均瞬时频率。如果滤波器响应周期接近τs(m),则 r(,m)·z3(m)将是一个接近的整数。同样的,CE(C,m)代表对应单元滤波器响应 包络的预测平均瞬时频率。如果滤波器响应周期接近rs(m),则fh(c,m)·rs(m)将是一个 接近的整数 )=(A(C, , t,/(c, m)T-int(/(c, m)T) 式 A, (c, m, r), f(c, m)t-int(f (c, m)r), int(f(c, m)r)) 式表示个特征,前三个特征与滤波器响应相对应,后三个和滤波器响应包络相 山国武技记文在丝 对应 会返叵最接近的整数。这个维特征合并了自相关和瞬吋频率特征。值得注 意的是,特征是一个关于基频周期的函数。 代表某单元是日标基频占主导的假设,相反。当且仅当下式成立,4单元 被标记成目标基音 ra(ts (m 式 在本算法中,我们粗略的估计单元内响应的瞬时频率,假改滤波器响应是近似正弦 曲线的,正弦函数在一个周期内会两次过零点,瞬时频率即表示为滤波器响应的第一个零点 倒数的一半 0 0.5 0.8 Q.4 0.2 0 6 Time (ms) 图自相关函数和给定基频的日标概率 本文使用含有一个隐藏层的 )分类器米计算每个滤波通 道的P(H0r(z)。如果相应的时频单元是由目标基音做主导的,的期望输出为, 反之为。在木文中,对每个频率通道训练一个,训练语料库为 标准测试库。 测试音乐是双声道信号,将歌声和伴奏是以的信噪比结合来组成训练样木的。隐减层 的单元数是通过交叉验证来桷定的。最终确定隐藏层有个单元。训练得到的 是根据式来给独立的单元做标记 图显示了测试语料库中混合语音在各通道的错误率,这个错误率是误接收率和误 拒绝率的平均值。如图所示,通过从单独的单元中提取特征,我们可以在整个频率范围 内正确标记出 单元。通常来说,在低频范围内的单元的标记准确率要远远的 高于高频区域的准确率。图和图显示了仅仅用了特征集中的子集的情況下的错误率。 如图所小,在基频点的值和瞬时频率是一对互补信息。在高频区域响应的包络比响应 本身更只有代表性。当个特征都使用时能得到更好的效果。 山国武技记文在丝 n Featunes 1. 2 and 3 g 50 H w Features 4,5, and 6 Features 1, 2, 3, 4, 5, and 6 a a) o Fcature 1 g 50H x Features 2 and 3 Features 1. 2 and 3 40 10 b) 50 H x Features 5 and 6 Features 45 and G 40 20 10 5184087471266206132785143800 (c) 图对于给定的基频,用维特征的子集进行单元标记时的错误率 多谐波时频单元标记 当干扰噪声中包含了·个或几个谐波信号的时候,吋间帧中就会包含了目标和干扰的基 频。在这种情况下,应该将单元中信号周期与目标基频周期以及干扰噪声基频周期相比 较,这样对单元进行标记才比较可靠。特别的,如果信号的周期不仅能与目标基频相匹 配,而且比干扰噪声基频周期匹配度高,这样就将μ标记成目标语音。 P(Hor(t(m)))> P(Ho r(t'(m))) 式 TT(m 其中r(m)是指在唢中干扰语音的基频周期。我们用式来对 库中单 声道音乐信号进行标注。图所示即为各通道的响应错误率,与仅提取日标基频进行标 注的效果进行了对比。如图所小,当提取两个基频的时候能获得史好的性能。 山国武技记文在丝 a One Pitch Two Pitch 50 10 018740874712662061327851433000 Channel center frequeney(H2) 图仅对主基频进行标记的错误率和比较双基频的错误率对匕 相邻时频单元标记 由于语音信号是宽带的并且表现出了短时连续性,相邻的单元也公潜在的提供一些 用于单元标注的有用信息。因此,我们不仅考虑当前时频单元的信息,也要考虐当前单元周 围的时频单元的信息。我们将p标记为目标单元当且仪当: P(Hn{P(H0r(z(m)))>0.5 其中c-c≤N,|m'-msNn 其中和代表了在频率和时间方向相邻元的大小,{P(H|(z,(m)是一个 代表了相邻单元的{P(0r0(rs(m))值的向量。对每个频率通道,我们通过相 邻单元的P(H0rn((m))}的值来训练含有一个隐藏层的,用这个来计算 P(H0|{P(H0r(r(m)})的概率。 这里的关键点是决定相怒元合适的大小。同样的,我们将训练数据等分成两份,也通过 交叉验证来确定和的大小。这个交叉验证建以 ,定义∫一个相邻单元适 当的大小。通过利用相邻通道和时间帧的信息,我们将测试语料库中所有通道的拒识率的平 均值从减少到 虚警率的平均值从降低到这个被训练好的 的隐藏层的单元数是,依然是通过交叉验证来确定的。 基频确定 跨通道整合 上一部分估计了一个关于目标语音的二值理想模,这里的任务是用这个米估计目 标基频。(m)=(c,m),}是在帧处标记的二值模,如果μ是由目标语音占主导 的就标记成,反之,标记为。这里通过计算所有频率通道的自相关函数,然后构造自相 关函数的和函数(在某一时刻所有频率道的函数之和)的主要峰值,用此方法来估 计基频。在帧处的预测基频周期zs(m)是由在可能基频范围内和函数所对应的 时间间隔所决定的。当干扰很强的时候,这个方法并不是鲁棒的,这是因为在这种情况下, 很多通道内的自相关函数的峰值并没有代表目标语音,只有一定的欺骗性。我们仅仅计算被 标记成的单元的相关函数的和函数 山国武技记文在丝 (m,r)=∑我(c,m,z)(c,m) 式 与滤波器响应的类似,在给定基频周期时单元是由目标基音占主导的概率 记为P(o|tn(z),当日标时频单元是由基音占主导的情况下上述函数会取得一个明显 的峰值。我们可以计算相应的P(|rn(r)函数的和,通过确定在可能的基频周期范围 内和函数S(z)的峰值来确定帧处的可能的基频周期。 (C)=2 P(Ho I r())L(, m) 式 从谐波中确定周期 在基频佔计为了从整数倍频中正确区分岀目标基频周期,我们需要考虑到可能的基频候 选相关的区域。z1和τ2是两个基频候选,我们训练一个基于的分类器,用这两个侯选 基频相关区域和SP()作为训练特征(例如(z1/z2,SPn(r1),SP(z2)),从这两个候 选基频中选岀更合适的一个。训练数据部分与部分中所描述的一样。我们计算日标语 首做主导的每个单元的S(r),以此来构建训练数据。在每个训练样本中,两个 基频候选中有一个是真实的日标基频,另一个是在可能的基频范围内另一个峰值SP(z)所 对应的时间间隙。为了不失一般性,我们使τ1<z2’如果τ是真实的基频,则期望输出是 ,反之为。得到的在隐藏层有个单元,我们用这个在两个侯选基频中选出 更合适的一个,步骤如下:如果的输出大」我们就认为z1是更好的基频,反之, 我们认识z2是更好的基频。 通过分类器来进行基频估计的步骤如下 在基频的可能范围内,计算所有的当前帧的Sn()的局部最大值作为基频候选。将 这些候选基频按时间间隙从小到大排列,将第一个候选值作为当前的估计基频周期zs(m) 用得到的米比较当前估计基频和下一个侯选基频,如果需要就更新基频估计的 值 运用短时连续性估计基频 语音信号展示了短时连续性,例如语音信号的频率部分会趋向」持续一个和音节或音素 相关的确定的时间周期,在这个周期内信号的变化是平滑的。因此,与目标语首相关的基频 和相应的坦想二值模也都会表现出短时连续性。通过对训练集的分析,我们发现语音数据中 只有少于的连续唢中会出现超过的相关基频变换。因此我们利用基频的连续性 来对基频估计做进一步的优化。 首先,我们基于这种短时连续性来对预测基频的可靠性进行检查。具体的,我们对三个 连续的时间帧, ,如果基频变化低于 那这三个时间咴内的预测基频周期 都被认为是可靠的 z(m)-z(m-1)<0.2min(z(m),z(m-1)) 式 τ(m)-z(m+1)k<0.2min(z(m),z(m+1) 第二,我们通过棖据相邻单儿可靠的基频来限制当前单元可能的基频范围,来对不可靠 的基频点进行重估计。具体的,对于两个连续的时间帧和,如果x、(m)可靠但是 山国武技记文在丝 zs(m-1)不可靠,我们限制rs(m-1)可能的基频范围为[0.8z5(m),1.2xs(m)],以此 对zs(m-1)进行重估计,反之亦然。另一个可能的情况是,z(m)是不可靠的估计,但是 τs(m-1)和τ、(m+1)都是可靠的估计,在这种情况下,如果帧处的模和的相似 度大于和的相似度,我们就用z3(m-1来限制τs(m)的可能的频率范围。 ∑ m-1)>∑ C, m)L(C, m+ 式 反之,就用z(m+1)来对z(m)进行重估计。这样,被重估计的基频点就被认为是可 靠的,我们可以用这个对相邻的不可靠的基频点进行重估计。当所有的不可靠的基频点都被 重估计后,这个重估计过程才停止。 实验结果及分析 本实验所用到的数据是 标准测试库中的歌曲。 中的数据为双声道的, 两个声道分别为纯净歌声和乐器伴奏,歌曲的采样频率为由于木文所提出的主旋律 提取算法的输入信号是单声道数据,所以在实验之前要先对数据进行处理。本实验用 将两个声道的数据以不同的信噪比混合成单声道数据,对信号进行主旋律提取, 然后跟 测试库中标准基频曲线相对比,统计实验结果 信噪比实验 将 测试库中的信号以不同的信噪比合成单声道信号,来观察信噪比对主旋律提 取的准确性的影响。得到实验结果如表所示 表信噪比实验结果 0.g 0吕 正05- 03 15 NE 图信噪比实验结果图 山国武技记文在丝 从图中可以看岀,基于听觉场景分析的主旋律提取算法的提取准确度受信噪比的影响比 较大,在信噪比为的时候系统能得到最好的性能,信噪比绻续增大,系统性能反而会 下降。 对结果的影响 本实验在 中选取∫条数据,以的信噪比将数据混合为单声道信号,在 此基础上进行实验。实验结果表明,基于听觉场景分析的主旋律提取算法能达到 的 准确率。将信号进行变换,滤除部分谐波分量。主旋律提取的准确性达到 小结 本文给出了一种基于听觉场景分析的主旋律提取算法。运用“谐波乐器打击乐器声音分 离”算法对信号进行预处理,滤除对歌声信号干扰匕较大的谐波乐器分量。在主旋律提取模 块,对信号进行听觉外围处理,提取∫关于相关图和瞬时频率的维特征,用分类器对每 时频单元进行标记。利用了语音信号的短时连续性对目标基频进行估计,提高基频估计的准 确性。实验衣明,该算法对音乐信号的主旋律提取能取得较好的准确性。 参考文献 邱伟黄秀轩计算听觉场景分析介绍高技术通讯

...展开详情
试读 9P 论文研究-基于听觉场景分析的音乐主基频提取算法 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_39841882 如果觉得有用,不妨留言支持一下
2019-08-15
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

    成功上传501个资源即可获取
关注 私信
上传资源赚积分or赚钱
最新推荐
论文研究-基于听觉场景分析的音乐主基频提取算法 .pdf 11积分/C币 立即下载
1/9
论文研究-基于听觉场景分析的音乐主基频提取算法 .pdf第1页
论文研究-基于听觉场景分析的音乐主基频提取算法 .pdf第2页

试读结束, 可继续读1页

11积分/C币 立即下载 >