论文研究-基于隐马尔可夫模型的音乐分类.pdf

所需积分/C币:22 2019-09-08 16:48:55 931KB .PDF

音乐类型(Genre)是应用最普遍的管理数字音乐数据库的方式,提出一种基于隐马尔可夫模型(Hidden Markov Models,HMMs)的音乐自动分类方案。在考虑传统的音色特征(Timbre)的同时,将另一重要特征节奏(Tempo)也加以考虑,并通过bagging训练两组HMM进行分类,达到了良好的效果。从结构、状态数和混合高斯模型数三个方面进行了参数优化,找到了最佳的HMM参数。在音乐数据集GTZAN上对传统模型和新模型分类效果进行了测试,结果表明考虑了节奏特征的HMM分类效果更佳。
1402017,53(16) Computer Engineering and Applications计算机工程与应用 85%能量集中在小丁该频率的第R,个点 本系统最终提取了12阶(除0阶系数)的MFCC以及其 MAn]-0.85∑Mn (5) 阶差分量为特征向量 (9)分析窗和结构窗 其中Mm表示第t帧信号的幅度谱中第n个值。 短时音频分析中,信号被分成很小的相重叠的分 (5)谱传播( Spectral Spread) 量,这些分量就是分析窗( Analvsis window)。分析窗 在 Lench的《音频内容分析》一书屮提到了该穊应该足够小以保诉信号的频率特征相对稳定。而当很 念。谱传播有时被叫做瞬时带宽 instantaneousband-多短时的普符合定时间上的规律,就会产生种质感 width),描绘了能谱在谱中心附近的集中程度。谱传播( Texture),为了获得这种质感上的特征,本系统中特征 可以看作能谱在谱中心附近的标准偏差。它的定义如下:的计算不是直接使用从帧中提取出的特征,而是由若干 CO-c".Mlp 这些特征向量组成的更大的结构窗( Texture window) 中各特征向量的均值和方差组成。这样处理同时可以 spread 降低计算量。本系统中使用大小为40个分析窗的结构 M,n] 窗,每个结构窗时长约为09s 其HC为潜中心,M为倍号的度 (10)低能量特征 6)谱平坦度( Spectral Flatness) 基于结构窗可以提取低能量特征。其定义为结构 谱平坦度同样用来刻画谱的形念,提供了量化声音窗中能量比平均能量低的分析窗所占的比例。对于人 的有旋律程度。谱平坦度(F的数学表达式为 声音乐,其低能量值就会比连续的演奏音乐高 exp(>InM[] 22节奏特征的提取 音乐的节奏反映了吝乐信号随时问的变化,节奏特 征包括音乐的节奏、节拍和拍速。常利用拍直方图 ( Beat histogram)进行节奏特征的提取。拍直方图可以 其中M为信号的幅度谱。 由信号的小波分解得到,可以理解为对时域信号进行一 (7)过零率( Zero Crossing) 系列的高通和低通滤波。 过零率衡量给定时间间隔内音频信号经过零值的 从拍直方图屮可以提取出6个不同的特征:拍直方 次数。对于自然的噪声该值是随机的所以对于静音中前两个峰的相对峰值,前两个峰的周期(以拍每分 的片段其过零率要高于有声的片段,所以常被用于区钟(bpm)表示),前两个峰幅度的比值以及整个拍直方 分音频是否有声音。过零率(Z1)的数学表达式为 图的幅度值之和。拍直方图的计算如图2所示。 gn(x[n])-sgnix[n-1Dl (8) 小 全 其中sgn(x)为符号函数 波 降 整 采 (8)Mel频率倒谱系数(MHCC) 流 低通滤波 MFCC是受人听觉特征的启发,基于STFT的音频 特征。根据人的听觉特点,人耳感受到了响度的变化与 幅度的实际变化是成对数关系的。对幅度谱取对数后 周 拍直 去 FFT系数根据Mel频率被分成多个频带和平滑。山于 方图 检 相 噪 测 关声 这样得到的Mel频谱向量是高度相关的,为了去掉他们 之间的相关性,需要对其进行变换,这里使用DCT进行 图2拍直方图的计算 处理。整个MFCC提取过程如图1所示。 3音乐分类 对Mel 音 数 31隐马尔可夫模型 频加 D 率DLF F 度 C 隐马尔可夫模型(HMM可以对一串时间序列进行 频 建模,因此被广泛地运用在语音识别、生物基因序列 组 分析等领域。隐马尔可夫模型以马尔可夫链为基础 图1从音频中提取MhCC 由文[1中的记号,系统中有N个状态,记作S={S 由于MFCC的第一个系数代表的是信号中的直流2…S},在时刻的状态被记作。各状态之间转 分量,在实际应川中常将其舍去:MFCC还有阶和一移矩阵为A=a,这里 阶差分量△MFCC,也有一定的意义。经过实验测试, Q)=Pg+1=S,=S1≤;,j≤N 肖晓红,张懿,刘冬生,等:基于隐马尔可夫模型的音乐分类 2017,53(16)141 对丁一些HMM,任何状态在一次转移中都可以到 达其他状态;而另·些HMM中只有某些状态之间的转 P(OW-aroi) (17) 移是可以发生的,即对于某些才有a>0。 同时定义A()和5(,)2 HMM与马尔可夫链不同在于,对每一个状态,外 ()-P(O1+0+2…0r,g-i,A) (18) 界只能进行一个观澜得到一个n维的观測向量0250m=Pm=+1=0, (19) 该向量与系统所处的状态有关,可以是离散或连续分 山前向后向计算法,(,;又可以表示为 布的 5(,j Pani,qu+1=jO, a) 对于连续分布的观测状念j对应观察向量的概率 P(Oa 分布为B-b,U),这里 )b,(0+1)9,+1() b()=Pvg=S,≤ (10) P(OJA 般将概率分布取为混合高斯分布,即 oo cibo+1)2+1() (20) (v1) ()an(O2=1)3+() 这里为混合的高斯分布数目,ω是正的混合权重, 系统在t时刻处在状态i的第m个混合分量的概 和为1,而NO,1m,E,m)是n维高斯分布。 率yA,m)为: 初始的状念分布为x=i,这甲 y(2 a iB (i)u,m N(o, 4;, m, Ej, m) (21) P[q1-S,1 12) a()3,(i) 至此,HMM的参数已经叙述完毕,可以将其总结为 个三组λ=(A,B,π)。由该模型生成的观察序列为 对于HMM中第氵个状态的第m个分量,B-W估计 O-010…0,0:为时刻的观测向量,T为总观测长度。方差如下 32HMM的训练 由于事先只能得到HMM的观测序列O,如何利用 a,;= (22 该序列佔计HMM中的参数λ是需要考虑的问题。通常 按照最大似然准则,利用Baum-Welh算法可以找到其 局部最优 ∑y:(,m) 首先需要进行初始化,即初步估计HMM的参数 Z, N! (23 之后再使用Baum- Welch算法进行迭代,文[13]中指出 ∑∑y(i B-W算法的结耒和初始参数有很大关系。首先对转移 矩阵进行初始化,采用 lelt-right秈和全连接模型,可以证 Yz, mo 明转移矩阵屮的0经过迭代还是0。由得到的观测序 24 列,采用 Kmeans聚类算法将其聚成M类叨。将初始参 (i,m) 数输入后,Baum- Welch算法输出一组新参数λ,并且观 测序列O=0102…0r: y(;,m)·(O4-g1m)(O 25 P(OX)>P(On) (13) 计算POA)的方法是前向后向算法。对于HMM参数入 YiL, 7) 和状态i,定义前向概率,(i) 33利用IMM进行分类 a:()=P(0102…O,q=i)(14) 首先利用带有标签训练集分别训练各种类的 即a()为参数A产生序列o102…o)并且t时刻状态为HMM,设需要分类的种类为k={1,2,…,K},每类对于 O的概率。 模型参数λ。利川最大似然准则将后验概率最大化, 通过以下前向算法可以计算出P(OA) 同时考虑贝叶斯公式,有 (1)初始化 k= arg max P(agO)=arg,max P(OaeP(ak) a1(j)-b,(o1),1≤j≤N (15) P(O) (2)递归 假设各类的先验概率P()相同,而P(O)和k无 关,因此该判据简为 a(0-b(0)>a1-(kn2≤4≤T,1≤i≤N(16 h-arg max P(One) (27) (3)终止 由于P(Oλ)很小,计算机运算过程屮会出现浮点 1422017,53(16) Computer Engineering and Applications计算机工程与应用 下溢出,故通常对其取对数值。对于多个观察序列,只5测试结果与分析 需要对各公式进行加权即可。 实验采用了音乐分类常用的著名数据集 GTZAN进 效果评估。 GTZAN由1000首音乐片段组成,这些片 4首乐分类系统的构建 段被分为10个类型: Classical, Blues, Hiphop,Pop, 41音频特征提取 Rock,Jazz, Reggae,Meta,Dsco和 Country,每个类由 第二章介绍了音频序列的各种特征,何括音色特征100个长度为30s的片段组成。这个数据集由 GerogeT 和节奏特征。 zanetakis收集"音乐片段均为采样率为22050Hz 对于音色特征的处理为:通过预处理将输入信号分16b量化的单声道音频。测试环境为 Intel core i5 成长度为512样点,重叠为256样点的帧后,对每个分析420.6GB内,系统为 Windows8.164bil,使用MAT 窗取谱能量、谱中心、谱通量、谱滚降、谱传播、谱平坦LAB实现。HM代码使川∫ Kevin Murphy的HM 度过零率和前2个MC以及△MFCC共3维向量,TOolbox(K.Murphy:“HImIntoolbox.htlp:/www.cs.ubc 在结构窗中取各分析窗特征向量的均值和方差,同时计 cal-murphyk/Software/HMM/hmm. htm),色特征提取参 算低能量值,故对每个结构窗提取了一个63维特征向考了 Alexander lerch书配套的代码(A. Lerch." Audio 量。将音色特征记为TC。其中与音色特征不同,节奏contentanalysismatlabcode."hts:!github.com/ale 特征反映了音频在一段长时间的特征甚至整个音乐的 anderlecht/ ACA-Code),测试采用4old交叉验证的方 总体特征。文对节奏特征的处理是利用整个音频计式,即将测试集分成4份,其中1份作为测试样本,剩余 算拍直方图,再提取特征,也就是说每个音频只提一个份作为训练集,重复4次使每组数据都被当作过测试集 节奏特征向量。考虑到HMM的时间序列特点,本系统51某于脊色特征的分类系统 将音频分成10段(长约3s),每段上提取一个节奏特征, 只考虑音色特征种的分类系统是传统方法。 组成·个长度为10的观测序列。将节奏特征记作Baum- Welch算法进行了10次迭代。考虑HMM状态数 RC。以上得到了两组特征,实验考虑了单独使用音色为3,4和5,输出混合高斯分布数为1和2,以及全连接 特征以及同时使用音色和节奏特征两组情形 和left- right模聖的情形。表1中是两种HMM结构的分 42分类器的训练 类准确率与HMM状态数和混合高斯分布数的关系 对于只使用音色特征的系统,首先对每个音乐种类从表中可以看到对于不同的状态数,分类准确率变化仅 进行音色特征提取,利用提取的特征向量为每个种类训为1%左右,故分类准确率与状态数的关系不大。而对 练一个HMM。选取不同的初始状态数,以及两种于混合高斯分布数,中间值2达到的效果最佳,准确率 HMM结构:全连接和 left-righ结构。进行分类时,对输达到632%。这是由于一个高斯分布不能很好地反映 入音频提取TC序列,计算每个科类的HMM产生该观出该HMM的观测特点,而3个或更多的分量缺少训练 察序列的概率,将其分为该概率最高的类别。 样木将其参数确定。对两种模型門和凹中的结果是 对于同时使用TC和RC的系统,对每个吝乐种类提 Left-right模型更优,而本系统中的全连接模型得到的准 取音色特征和节奏特征,分别利用两组特征对每个种类确率相对较高。 训练2个HMM。进行分类时,对输入音频提取TC、RC 表1不同HMM结构下的分类结果(仅音色特征) 序列,计算每个种类的两个HMM产生观察序列的概率 (a)Fully-connected 之和,将其分为该概率最高的类别。系统的结构如图3 所示 59,2 61.1 62.5 63.2 62.9 输入 预处。特征 3 59.6 58.8 理 提取 (b)Left-right 结果 特征 NC 标答 向量 61.8 训练 分类 训练集测试集 60.3 623 59.9 59.6 56.1 51.6 注:NS表示HMM的状态数,NC表示输出混合 高斯的分量数。 每列第一个元素表实际类别,列中元素表示被分到 图3音频分类系统结构图 该行对应类别的频率。表2中是最好情况下的具体分 肖晓红,张懿,刘冬生,等:基于隐马尔可夫模型的音乐分类 2017,53(16)143 类混淆的结果,即全连接HMM在NC-2、NS一4时的表4是各种分类算法的准确率比较。本文系统的准确 分类结果。结果显示,对于特征较为明显的音乐类型如率相比最新研究成果还有段距离。 Classic1, Hiphop,Ja7, Metal和Pop,HMM能达到较高 表A不同分类算法准确率的比较(使用 GTZAN数据集) 的准确率(≥70%),其中 Classical的准确率达到了89 Reference Classifier Classification accuracy/% 而像Bsg以及Ra等类型其特低不是很明 Panagakis LPNTF 显,囚此分类准确率较低。同样值得注意的是,有人量 Nanni et al. lI 不是Rok类型的音乐被分到了Rock类。造成这种结 Baniva et al 85.15 果的原因可能是提取的音色特征不能很好地区分这些 J. S. Seo OSC+SVM 84.09 类别的音乐。而文[1中的实验也说明,即使由未经训 Wu et V+Gabor filters 82.10 DWCH+SVM 78.50 练的人类进行音乐分类也只有70%的准确率 apI proach HMM 680 表2 GTZAN数据集的混淆矩阵(采用音色特征) Our approach1 HMM GMM&KNN Di Hi Ja Me Po rero 61.00 10060 00 结论 619 本文通过构建隐马尔可大模型对常见的音乐类型 455 61414 进行了自动分类,研究了HMM参数对分类准确率的影 000 70012173 叫并找到了(局部)最佳的参数。实验证明使用HMM 0023 Me5063147611 进行音乐的分类可以达到良好的效果。考虑传统的音 0212 色特征达到了63.,2%的准确率,而结合了节奏特征的双 l00241 0046 HMM分类器的准确率达到了668%。这个结果与普通 R017120194 1312641 观众分类的70%准确率较为接近。所以进行节奏特征 5,2基于音色与节奏特征的分类系统 的提取有利于分类的进行,这是由于好的特征提取能够 将音色特征与节奏特征均应用于HMM的分类系将不同种类样本分散得更开,更容易被分类器区分 统是本文提出的新方法。同样进行了10次 Baum Welch 算法迭代。有了上面的结果,这里将音色特征对应的参考文献 HMM取为状念数为4输出混合高斯分布数为2的全连[ Tzannetakis G. Cook PMusical genre classification of audio 接模型。而节奏特征的状态数和混合高斯分布数以及 signals[J]IFEF Transactions on Speech and Audio pro cessing,2002,10(5):293-30 模型种类需要重新考虑。结果如表3所示。可以发现 [2] Rabiner L, Juang B H. Fundamentals of speech recogni- 仍然是全连接模型的效果更佳,对于状态数为5混合高 tion[M. Beijing: Tsinghua University Press, 1993 斯分布数为3的模型准确率达到了66.8%。这里准确率 [3 Li T, Ogihara M, Li QA comparative study on contenl 相比只考虑音色特征要高一些,这个结果是可以理解 based musing enre classification[ C]/Proceedings of the 的,因为毕竟些音乐的特征蕴含在其节奏屮,比如 26th annual International ACM sigir Conference on Hiphop就很有节奏感,而 Classical奏的变化较多。 Research and Development in Informaion RetrievaL.ACM 表3不同HMM结构下的分类结果(考虑节奏和音色特征) 2003:282-289 (a fully-connected [41 Panagakis Y, Kotropoulos C, Arce G R Music genre clas ification using locality preserving non-negative tensor NC factorization and sparse representationsICJISMIR, 2009 62.8 249-254. [5 Lee C H, Shih J L, Yu K M, et al. Automatic music 63.6 8 668 genre classification based on modulation spectral analysis (b) Left-right of spectral and cepstral features[J. IEEE Transactions on Multimedia,2009,11(4):670-682 NC [6]Baniya B K, Ghimire D, Lcc J.A novel approach of auto 62.0 60.4 matic music genre classification based on timbrai tex 57.2 62.4 ture and rhythmic content features[C]/2014 16th Interna 04 58.8 57.6 tional conference on advanced Communication technol 注:NS表示HMM的状态数,NC表示输出混合 Ogy (ICACT).IEEE, 2014: 96-102 高斯的分量数。 (下转165贝)

...展开详情
试读 6P 论文研究-基于隐马尔可夫模型的音乐分类.pdf
img
  • 至尊王者

    成功上传501个资源即可获取

关注 私信 TA的资源

上传资源赚积分,得勋章
    最新推荐
    论文研究-基于隐马尔可夫模型的音乐分类.pdf 22积分/C币 立即下载
    1/6
    论文研究-基于隐马尔可夫模型的音乐分类.pdf第1页
    论文研究-基于隐马尔可夫模型的音乐分类.pdf第2页

    试读已结束,剩余4页未读...

    22积分/C币 立即下载 >