没有合适的资源?快使用搜索试试~ 我知道了~
基于特征融合的声乐分类研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 122 浏览量
2022-06-26
16:09:35
上传
评论
收藏 622KB DOCX 举报
温馨提示
试读
17页
基于特征融合的声乐分类研究.docx
资源推荐
资源详情
资源评论
1 引言
近年来人们的文化需求不断增长,音乐作为人类表达情感和相互交流的载体
已经深入生活的各个角落。伴随着移动互联网的蓬勃发展 ,数字音乐产业也在不
断扩张。据腾讯音乐娱乐集团发布的相关报告显示,仅 2019 年华语新发歌曲数
量就达到 23 万余首
[1
]
。除了媒体数据库巨大的规模外,自媒体时代,用户每天也会
生成大量音频内容,使手工标注音乐变得不可行。
海量的音乐数据除了给听众带来了更多的选择,也给音乐信息检索(Music
Information Retrieval,MIR)带来了难题。基于内容的音乐信息检索有很多应用
领域,包括听歌识曲、声乐分类、音乐情感分类、音乐推荐、歌唱评价等。声乐
分类作为音乐信息检索的一个重要分支,在音乐组织管理、浏览、检索、情感计
算和推荐中都有重要应用。然而,声乐分类体系纷繁复杂,各个国家地区的分类标
准并不完全一致
[2
]
。复杂的声乐分类体系给人工标注声乐带来了困难。近年,机器
学习和深度学习技术发展十分迅猛,在自然语言处理和图像处理领域应用广泛。
例如,在自然语言处理领域,文字首先通过词向量模型被映射为向量,再通过机器学
习模型、深度学习模型进行分类,形成一套完整的流程
[3
]
。文本分类任务经过若干
年的发展已经相对成熟,除文本和图像外,语音作为另一种信息模态也包含了大量
信息。与文本分类问题相比,通过构造相应特征,机器学习和深度学习技术是否可
以用来对歌曲的曲风类别进行识别,从而更好地理解歌曲信息和完成音乐信息检
索的下游任务,是一个值得研究的议题。
综上,声乐分类对于音乐信息检索和多模态信息融合具有一定的研究价值 ,是
情报技术在多媒体信息检索中的应用。本文首先对歌曲信息进行挖掘 ,构建其音
频统计特征,采用机器学习方法进行声乐分类;随后将声音转化为梅尔频谱图形成
图像,将声乐分类问题转化为图像分类问题,并探索了梅尔频谱图采样参数变化对
实验结果的影响;最后,提出融合统计特征和图像特征的深度学习方法,进一步提升
了模型效果。
2 相关研究
随着互联网在线音乐平台的发展、音乐数量的急剧增加与音乐种类的不断
更新,音乐标注工作量不断增加。声乐分类作为音乐信息检索领域的重要组成部
分,越发受到人们的关注。目前,针对声乐分类的研究方法主要分为两种,一种是以
音频统计特征为基础的机器学习方法,另一种是以声谱图为基础的深度学习方法。
以机器学习方法为基础的声乐分类研究开展得较早 ,Lumbrou 等
[4
]
利用小波
变换分析将声音信号转化为波形信号,抽取其中的一阶统计信息(均值、方差、
偏度、峰度等)、二阶统计信息(角二阶矩、相关系数、熵等)和过零率等统
计特征,根据特征向量间的距离,通过最小二乘法、K-近邻等分类器对音乐曲风进
行分类。Mandel 等
[5
]
首先抽取了歌 曲信息的梅尔倒谱 系 数( Mel-Frequency
Cepstral Coefficients,MFCCs ) 特 征 , 再 使 用 支 持 向 量 机 ( Support Vector
Machine,SVM)分类器对这些特征向量进行分类,并比较了不同距离度量方式的
优劣。Li 等
[6
]
在声音特征抽取上进一步探索,并设计了一种新的特征抽取方式
DWCHs,能够同时获取音乐的局部表示和全局表示,在支持向量机算法上取得了
良好的表现。Shao 等
[7
]
将隐马尔可夫模型(Hidden Markov Model,HMM)应用
到声乐分类,首先将音乐分成若干段,再分别抽取各段特征按顺序输入到隐马尔可
夫模型中,对音乐的时序性进行建模。Silla Jr 等
[8
]
从音乐的节奏、音质、音高等
三个方面进行特征抽取,探究了各种特征组合对音乐曲风识别效果的影响。可以
看出,早期基于机器学习的声乐分类方法重点关注在音频特征抽取上,抽取的特征
质量对音乐曲风识别效果具有较大影响。
随着深度学习技术的不断成熟,越来越多的研究者开始关注将深度学习方法
运用到语音信号处理中。Rajanna 等
[9
]
首先抽取音乐的相关特征,再将特征输入到
多层神经网络中对音乐曲风进行分类。雷文康
[10
]
首先抽取音乐一个分析窗内的音
乐特征,将多个分析窗形成的序列输入循环神经网络中对音乐曲风进行分类。以
上这些方法,虽然用到了深度学习方法,但还是依赖于抽取出的音乐统计特征。
Zhang 等
[11
]
首先对声音信号进行短时傅里叶变换生成频谱图 ,再利用卷积神经网
络对频谱图进行分类,取得了比机器学习方法更佳的效果。Bahuleyan
[12
]
利用图
像分类预训练模型 VGG-16 直接分类音乐的频谱图,取得了比机器学习模型更优
的结果,基于预训练模型的迁移学习方法在 7 类声乐分类的 F1 值为 0.62。
综上所述,基于机器学习的声乐分类方法依赖于研究人员手工构建的特征,基
于深度学习的声乐分类方法避免了手工构建大量特征,节省了人力成本,正成为声
乐分类研究中的主流。但是笔者也发现了以下问题。
(1)基于深度学习的声乐分类方法依赖由声音转化而成的频谱图,而频谱图
的各种采样参数需要人为设置,很少有研究者对采样参数的选取进行研究。
(2)缺乏将图像特征和统计特征结合起来的特征融合研究,未能充分利用声
音的各类特征。
因此,本文首先探索了机器学习方法在曲风识别上的表现,进而提出一种融合
统计特征和图像特征的深度学习声乐分类方法,并探索了梅尔频谱图采样参数的
选取对实验结果的影响。
3 实验设计和优化
3.1 数据来源
本次实验用到的数据集来源于 FMA(Free Music Archive)中的开源数据
[13
]
。FMA 是一个开放易获取的数据集,除音频外,还提供了十分丰富的与音乐相关
的元信息,包括歌曲名、音乐曲风种类、发行年份、艺术家、歌词以及其他相关
信息,适用于 MIR 研究,近年来已被广泛用于音乐曲风分类、音乐推荐、多模态信
息 融 合 等 研 究
[14
,15
,16
]
。 FMA 数 据 集 十 分 庞 大 , 分 为
fma_small 、 fma_medium 、 fma_large 、 fma_full 这 4 个 部 分 , 其 中 最 大 的
fma_full 数据集包 含 106 574 首 完 整音乐, 涵 盖 161 个 音 乐 类 别, 大 小 达 到 了
879GB。考虑到数据处理能力的限制,本文选取 fma_small 数据集进行实验,共计
8 000 首 歌 曲 , 大 小 为 7.2 GB, 包 含 8 类 音 乐 , 分 别 是 Hip-
Hop、Pop、Folk、Experimental、Rock、International、Electronic、Instrum
ental。音频的保存格式为 MP3,每首音乐的时长控制在 30 s。
3.2 研究框架
为了探究不同模型在声乐分类任务上的表现,本文分别采用机器学习方法和
深度学习方法进行声乐分类实验,研究框架如图
1
所示。
图 1
图 1研究框架
Fig.1The Research Framework
首先对原始音频数据进行特征抽取操作,分为统计特征和图像特征两部分。
机器学习模型的输入只能是相同维度的向量。因此,笔者对声乐分类的相关工作
进行调研,选取与语音信号处理相关的统计特征,如声音的节拍、过零率、色度特
征、频谱质心等,并采用 librosa 第三方软件包抽取相关统计特征
[17
]
。划分训练集
和测试集后,将训练集特征向量输入到线性回归(Linear Regression,LR)、朴
素贝叶斯(Naive Bayesian,NB)、支持向量机(SVM)、决策树(Decision
Tree,DT)、XGBoost 等机器学习模型进行训练并在测试集上评估模型的优劣。
除各种统计特征外,梅尔频谱图也是用来研究声音特性的一种重要手段,librosa 支
持将语音数据转化为梅尔频谱图。因此,声乐分类问题就可以转化为图像分类问
题,而卷积神经网络(Convolutional Neural Network,CNN)在图像识别上已经
被证实有良好的表现。基于现有相关研究,本文设计了一种多层 CNN 架构。在训
练集上训练模型,根据模型在验证集上的表现调节模型参数,最终在测试集上评价
模型结果。除此之外,本文还将声乐的统计特征和图像特征进行融合,具体方法是
将统计特征与 CNN 提取的图像特征进行拼接,再以此预测声乐的曲风类别,将在
3.4 节详细介绍。
3.3 基于统计特征的机器学习方法
特征工程是构建机器学习模型的重中之重,通过文献调研,本文将抽取的特征
分为时域特征和频域特征。时域特征将语音信号的各个时域采样值直接构建成
一个向量,时域特征主要包括:中心距(Central Moments)
[18
]
、过零率(Zero
Crossing Rate )
[19
]
、均方根能量值( Root Mean Square Energy )
[20
]
、节拍
(Tempo)
[21
]
等。频域特征是对一帧声音信号进行某种变化后产生的向量,即将
声音震动的频率转化为专门的声音特征向量,常见的频域特征有:梅尔倒谱系数
( MFCCs )
[22
]
、 色 度 特 征 ( Chroma Features )
[23
]
、 频 谱 质 心 ( Spectral
Centroid)
[24
]
、谱对比度(Spectral Contrast)
[25
]
、频谱衰减(Spectral Roll-
off)
[26
]
、频谱带宽(Spectral Bandwidth
)
[27
]
等。部分重要特征说明如表
1
所示。
表 1语音信号统计特征说明
Table 1Description of Statistical Characteristics of Speech Signals
特征
类别
特征
名 特征说明
时域
特征
中心
距
波形信号的均值、标准差、偏度、峰度等统计特征。主要用来
区分浊音和清音段,区分声母和韵母的分界、无话段和有话段的
分界
过零
率
对于连续语音信号,过零意味着时域波形通过时间轴,对于离散信
号,如果相邻的取样值改变符号,则称为过零。浊音时具有较低的
过零率,而清音时具有较高的过零率
节拍 节拍可以表征音乐的快慢,被定义为每分钟的节拍数
频域
特征
梅尔
倒谱
系数
信号的梅尔倒谱系数是一小组特征,简明地描述了频谱包络的整
体形状,模拟了人声的特征
色度
特征
色度是音乐音频重要的表示,其中整个频谱被投影到 12 个区间,
代表音乐八度音的 12 个不同的半音(或色度)
频谱
质心
频谱质心指示声音的“质心”位于何处,并按照声音的频率的加权
平均值计算
新窗口打开|下载
CSV
根据以上提出的相关音频特征,本文对 30s 的音乐进行特征抽取操作。由于
完整的 30s 音频抽取出的相关特征维度可能过高,并且不同特征的维度存在差异,
本文在这些特征的基础上进行描述性统计分析操作,计算各特征对应的均值、方
差、偏度、锋度等统计值,将这些统计值拼接起来,得到共计 518 维的特征向量。
3.4 基于图像特征的深度学习方法
(1) 梅尔频谱图
从音频文件中读取出来的原始语音信号通常称为声波(Raw Waveform),
声波是一维的时域信号,如图
2
所示。声波在直观上很难看出频率的变化规律,因
此可以通过短时傅里叶变换将原始的声音信号堆叠成二维信号形成声谱图。
剩余16页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3582
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功