论文研究-基于听觉外围模型的音频基频估计方法.pdf

所需积分/C币:9 2019-09-07 14:52:36 514KB .PDF
5
收藏 收藏
举报

针对音频信号中的暂态成分对基频检测可靠性的影响,提出了一种基于听觉外围模型的基频估计方法。该方法根据听觉外围模型来模拟声音在人耳内耳听觉神经上传导过程,并利用循环平均幅度差函数判断每个神经传导信号上呈现的时域周期性,进而提取音频信号的基频。实验结果表明,在纯净音频条件下,该方法能准确地估计出音频信号的基频,并且在不同音量打击乐信号的干扰下,所提方法的平均错误率低于三种参考方法。
刘鑫,鲍长春:基于听觉外围模型的音频基频估计方法 2014,50(17)31 g,Lm-y()|d。若神经突触间隙中自由传导物质的数量激信号的周期性进行分析。该方法借助循环移位法降 为c(,则会有数目为g,c()d的传导物质返回到毛细低当前信号与其多倍周期延迟信号的相关性,进而有效 胞,而数目为gc(d的传导物质则将耗散掉。将以上抑制信号时频包络浮动所造成的周期加倍现象。对于 过程总结为动态系统可表示为 第j临界带下神经刺激信号c(,其循环AMDF可以 表示为: dt =gIm-q(01+8. c(0-k(a)q(0) C=k((0)--(0)-gc() (3) lam(,)=∑|c(j,)-c(,mod(+,N)(4) 最终,根据接收到听觉剌激xO的强度可以动态其中,为时间延迟,N=60为音频信号的分析顿长, 地控制传导物质在内耳毛细胞和听觉神经突触间隙间mod(+tN)表示i+7模N的余数。 的双向传导。根据 Meddis听觉研究结果,内耳毛细胞 为了初步判定音频信号的周期,定义各个临界带下 模型中的相关参数分别设置为:m=1;A=5;B=300;循环AMDF值dmd(t)和 dscam()作为本段音频的 g=200;g-505;1-=2500;g-6580相关听觉总循环AMDF,如下 实验表明,在突触间隙中传导物质的数目c()与听觉神 d scamdr([)=>d (5) 经上产生电信号的概率成正比,且其周期性与人耳对音 颊信号的主观基频感知相关,那么可以将式(3)所示的 最终,根据总循环AMDF曲线判定音频信号的周期。 连续动态系统离散化,并得到各个临界带的神经刺激信 同样以响板干扰下口琴音频信号为例,听觉外围模 号离散时间序列c(,i。 型各个通道输出听觉刺激波形的循环AMDF曲线和总 以某一段响板干扰下的口琴音频信号为例,图3和循环∧MDF曲线如图5、图6所示。可见,尽管响板干扰 图4分别表示其时域波形及听觉外闱模型各个通道输对口琴音频的时域干扰比较强烈,但是经过听觉外闱模 出的昕觉刺激波形。在时域波形中,响板信号的幅度超型,其暂态成分分解到各个临界带通道上,因而对各个 过了凵琴信号的嘔度,严重影响到该信号的周期性。利通道听觉刺激信号周期性的影响并不显著。并且循环 川听觉外围模型进行处理后,响板信号随着口琴音频一AMDF方法利用循环移位技术降低了较大延迟下信号 起分解到不同的听觉通道中,其时间暂态特性被大大的的相关性,有效地抑制了周期加倍的现象。因此,利用 削弱了。由图4可知,前10个通道的听觉刺激信号基本简单的最小值搜寻方法很容易在总循环AMDF曲线上 没有受到响板信号暂态成分的过多影响而在高频通确定真实周期,即x=112。图7描述的是对原始音频信 道中,响板信号的暂态于仅仅改变了听觉刚激的时间号时城波形进行处理后得到的循环AMDF曲线,可见由 包络信息,对其周期性的干扰作用十分有限。因此,可 以看出利用听觉外围模型对音频信号进行分解能够有于响板信号的霄态特性严重影响到了山琴信号时城波 效地抑制暂态成分对基频感知的消极影响。 形的周期特性,很难根据循环AMDF曲线确定真实的 根据基频感知原理,人耳基底膜上听觉激励的周期周期。 性与吉音信号的基频息息相关。为此可以通过分析各2.3后处理 个通道下听觉刺激信号的周期特性,进而实现对原始音 为了改善基频的稳定性,本文还会引入信号周期的 频信号基频的有效估计。 历史值来对基频估计进行后处理。 22循环AMDF 令上帧音频信号最终获得的周期估计值为P。d 本文利川循环AMDF方法对各个临界带上神经刺则可在总循环AMDF曲线上以τ=P为中心加以一个 2500 2000 1500 1000 20 时间(样点 时间(样点 图3响板干扰下口琴音频的时域波形 图4听觉外围模型各个通道输出的听觉刺激波形 2014,50(17) Computer Engineering and Applications计算机工程与应用 24精细搜索 为了提升基频估计的精度,本文所提方法还需要进 来20 步在整数周期P附近确定分数周期。首先,在[P-3 P+3]范围内,以1/4的时间延迟为分辨率对原始的总循 环AMDF进行抛物线内插。然后,选择该范围内插值后 总循环AMDF的最小值。最终,以该延迟作为最终的分 数周期P,其倒数则表示音频信号的基频。 050100150200250300350400 时间延迟(样点) 3实验测试与结果 图5听觉外围模型各个通道的循环AMDF曲线 3.1测试样本 1500 为了评价本文所提方法的基频估计性能,本文选择 欧洲广播联盟录制的声音质量评测材料中的4种典型 音调性器乐(短笛、钢琴、小号、小提琴)和3种打击乐信 1000 号(响板、低音鼓、饶钹)作为测试样本。其中,短笛和钢 琴信号低频谐波相对丰富,而高频能量衰减较快。小号 500 和小提琴信号在全频带上均存在卡富的谐波,且小提琴 信号具有明显的颤吝结构。而3种打击乐都具有清晰 的暂态特性。响板信号在时域上收敛较快,具有一定的 50100150200250300350400 音调性,而低音鼓和铙钹信号收敛较慢,且在4kHz以 时间延迟(样点) 上的频段中饶钹的能量要明显高于低音鼓。 图6总循环AMDF曲线 测试前,需要去除所有信号中的静音段,且每种音 9们 调性器乐演奏时分别附加不同的打击乐信号,构成含噪 音频,进而在不同的器乐与打击乐平均功率比下对所提 700 基频估计方法的鲁棒性进行研究。最终,荻得的36段 测试样本采样频率为32kHz,有效带宽为14kHz,长度 s400 在10s左右。基频估计过程中所选用的分析帧长为 300 帧间无交叠:所有音频的真实基频通过人工标 20 注的方法确定,其分布在200~1600Hz范围内,即周期 00 搜索范围为20 50100150200250300350400 32参考算法 时间延迟(样点) 图7时域波形对应的循环AMDF曲线 为了测试算法的有效性,本文所提出的基频估计算 法将进一步与三种参考算法(AMDF法、YI法和 对称窗函数来减小P附近的幅度差函数值,进而实现 Meddis基频估计法例)进行比较。∧MDF法采用了传统 基频增强。对称窗函数定义为: 的AMDF来判定信号的周期;YN法则引入累积均值归 v()=W(1)=a+ (1-a.;=0,1 化差函数来改进AMDF,提升了较小周期下基频估计 其中,a决定了窗中心位置的函数值,并与前一帧音频方法的准确性;而Med基频估计法同样采用 Meddis 的谐波程度相关。若前帧信号为强谐波信号则听觉外固模型并利用ACF衡量听觉刺激信号的周期 a=09,否则x=1,即不对周期历史进行增强。随着与性。为了公平起见,这三种参考方法采用与本文所提方 窗中心位置逐渐远离,对称窗函数的值将趋近于1。根法相同的后处理和精细搜索过程,并分别在纯净器乐信 据实验结果,当N=5时,基频增强的效果最好。 号和不同器乐与打击乐平均功率比下与本文所提方法 接下来,在基频增强后总循环AMDF首次达到极大进行基频估计的性能对比。 值后的延迟范围内,找出该曲线的最大值d和最小值33误差测度 dm,并确定阙值为7=dnn+005(dn-dnn)。在总循 令第n帧测试信号的真实周期为P1(n)由算法提 环AMDF值小于阈值r的范围里,搜索第一个局部极取的周期为P(m)则基频估计方法的误差测度可根 小值,并判定其所在时间延迟位置为周期P。 据基频误差e(n)得到,如下所示 刘鑫,鲍长春:基于听觉外围模型的音频基频估计方法 2014,50(17)33 長3在低音鼓千扰下不同基频佔计法总错误佔计率 1 P(n) P (n) (a)器乐与打击乐平均功率比为20dB(%) 若某一帧的基频误差e(n)大于10Hz,则认定该帧具有 乐器AMDF法YIN法 Meddis法所提方法 较大估计误差。对于整段音频信号,较大误差帧的数目 短笛 占总帧数的比例可作为基频估计方法的总错误估计率。 钢琴 小号 3.4纯净信号下其颗估计性能 小提琴 39 表1中显示了在纯净音频信号下不同基颊估计方 (b)器乐与打击乐平均功率比为0dB(%) 法的总错误率。结果表明,在不含噪声的糸件下,∧MDF 乐器AMDF法YI法 Med dis法所提方法 法和 Meddis法具有较大的总错误估计率,这主要是囚 短的 为周期搜索范围比较宽,在不做特别优化的前提下, 钢琴 小号 AMDF法和 Meddis法容易出现周期加侪的现象。Yi 小提琴 法和本文方法有效地抑制了稳态信号下的周期加倍减 半,并将总错误率控制在10%以内。但是在不同音调间 表4在响板干扰下不同基频估计法总错误佔计率 (a)器乐与打击乐半均功率比为20dB 的过渡阶段,两个不同周期的音调成分同时出现,这改 乐器AMDF法YI法 Meddis法所提方法 变了音颊时域信号的周期性,进而出现估计误差 短笛 表1不同基频估计法对纯净音频的息错误估计率 钢琴 8 1 小号 小提琴 902 乐器AMDF法YIN法 Meddis法所提方法 短笛 (b)器乐与打击乐平均功率比为0dB(%) 钢琴 乐器AMD法YIN法 Meddis法所提方法 小号 短饴 小提琴 钢琴 3.5打击乐信号下扰下基频佔计性能 小号 2 在实际音频信号中,打击乐中的暂态成分会影响音 小提琴 38 调性器乐信号的基频估计。本文分别在两种器乐与打随着器乐与打击乐平均功率比上升,本文方法总错误佔 山乐平均功率比(20dB和0dB)下,利用钹铙、低音鼓、计率小幅上升,并比YN法的错误率低5%-10%。此 响板三种打山乐作为伴奏,构造成含噪音频。不同打占外,从测试结果中还可以看出,钢琴信号受到打击乐干 乐干扰下四种基频估计方法的总错误估计率如表2~扰时,总错误估计率上升幅度比另外三种器乐信号要 表4所示。 小,这主要是因为键盘乐器相比于管弦乐器起振时间 表2在钹饶十扰卜不同基频佔计法总错误估计 短,且屮低频谐波丰富而稳定,无明显颤音结构ε在受 (a)器乐与打击乐平均功率比为20dB(%) 到暂态噪声干扰时,利用后处理方法能够有效增强基频 乐器AMDF法YIN法 Meddis法所提方法 轨迹的连续性。 短笛 综上所述,打击乐信号会明显干扰音调性器乐音频 钢琴 4 的基频,而本文方法估计基频的总错误率要低于三种参 小号 小提琴 37 考方法。 15 (b)器乐与打击乐平均功率比为0dB(%) 乐器AMDF法YIN法 Meddis法所提方法 4结论 本文提出了一种基于听觉外围模型的音频信号基 钢琴 19 4 频估计方法。该方法借助 Meddis听觉外围模型和循环 小号 AMDF来估计音调性器乐信号的基频。测试结果表明, 小提琴 IN 39 在纯净音频条件下本文提出方法有效地抑制了信号周 測试结果表明,受到打击乐信号的干扰,AMDF法則加倍减半现象,并准确地估计出音频信号的基频;在 和Mcdi法相比于纯净信号条件下总错误估计率半均不同能量水平打击乐信号的干扰下,本文方法基频估计 上升10%-20%,且器乐与打击乐平均功率比为0dB时,的平均错误率仍能控制在20%以下,并优于三种参考 这两种方法的半均总错误估计率进一步上升到40%以方法。 上。而YIN法和本文方法错误估计率在10%20%,且 (下转67页)

...展开详情
试读 5P 论文研究-基于听觉外围模型的音频基频估计方法.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_38743968 如果觉得有用,不妨留言支持一下
2019-09-07
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-基于听觉外围模型的音频基频估计方法.pdf 9积分/C币 立即下载
    1/5
    论文研究-基于听觉外围模型的音频基频估计方法.pdf第1页

    试读结束, 可继续读1页

    9积分/C币 立即下载 >