基于特征融合的声乐分类研究.docx资源-CSDN文库

版权申诉

文档资料

122 浏览量 2022-06-26 16:09:35 上传评论收藏 622KB DOCX 举报

资源推荐

资源详情

资源评论

1 引言

近年来人们的文化需求不断增长,音乐作为人类表达情感和相互交流的载体

已经深入生活的各个角落。伴随着移动互联网的蓬勃发展 ,数字音乐产业也在不

断扩张。据腾讯音乐娱乐集团发布的相关报告显示,仅 2019 年华语新发歌曲数

量就达到 23 万余首

]

。除了媒体数据库巨大的规模外,自媒体时代,用户每天也会

生成大量音频内容,使手工标注音乐变得不可行。

海量的音乐数据除了给听众带来了更多的选择,也给音乐信息检索（Music

Information Retrieval,MIR）带来了难题。基于内容的音乐信息检索有很多应用

领域,包括听歌识曲、声乐分类、音乐情感分类、音乐推荐、歌唱评价等。声乐

分类作为音乐信息检索的一个重要分支,在音乐组织管理、浏览、检索、情感计

算和推荐中都有重要应用。然而,声乐分类体系纷繁复杂,各个国家地区的分类标

准并不完全一致

]

。复杂的声乐分类体系给人工标注声乐带来了困难。近年,机器

学习和深度学习技术发展十分迅猛,在自然语言处理和图像处理领域应用广泛。

例如,在自然语言处理领域,文字首先通过词向量模型被映射为向量,再通过机器学

习模型、深度学习模型进行分类,形成一套完整的流程

]

。文本分类任务经过若干

年的发展已经相对成熟,除文本和图像外,语音作为另一种信息模态也包含了大量

信息。与文本分类问题相比,通过构造相应特征,机器学习和深度学习技术是否可

以用来对歌曲的曲风类别进行识别,从而更好地理解歌曲信息和完成音乐信息检

索的下游任务,是一个值得研究的议题。

综上,声乐分类对于音乐信息检索和多模态信息融合具有一定的研究价值 ,是

情报技术在多媒体信息检索中的应用。本文首先对歌曲信息进行挖掘 ,构建其音

频统计特征,采用机器学习方法进行声乐分类;随后将声音转化为梅尔频谱图形成

图像,将声乐分类问题转化为图像分类问题,并探索了梅尔频谱图采样参数变化对

实验结果的影响;最后,提出融合统计特征和图像特征的深度学习方法,进一步提升

了模型效果。

2 相关研究

随着互联网在线音乐平台的发展、音乐数量的急剧增加与音乐种类的不断

更新,音乐标注工作量不断增加。声乐分类作为音乐信息检索领域的重要组成部

分,越发受到人们的关注。目前,针对声乐分类的研究方法主要分为两种,一种是以

音频统计特征为基础的机器学习方法,另一种是以声谱图为基础的深度学习方法。

以机器学习方法为基础的声乐分类研究开展得较早 ,Lumbrou 等

]

利用小波

变换分析将声音信号转化为波形信号,抽取其中的一阶统计信息（均值、方差、

偏度、峰度等）、二阶统计信息（角二阶矩、相关系数、熵等）和过零率等统

计特征,根据特征向量间的距离,通过最小二乘法、K-近邻等分类器对音乐曲风进

行分类。Mandel 等

]

首先抽取了歌曲信息的梅尔倒谱系数（ Mel-Frequency

Cepstral Coefficients,MFCCs ）特征 , 再使用支持向量机（ Support Vector

Machine,SVM）分类器对这些特征向量进行分类,并比较了不同距离度量方式的

优劣。Li 等

]

在声音特征抽取上进一步探索,并设计了一种新的特征抽取方式

DWCHs,能够同时获取音乐的局部表示和全局表示,在支持向量机算法上取得了

良好的表现。Shao 等

]

将隐马尔可夫模型（Hidden Markov Model,HMM）应用

到声乐分类,首先将音乐分成若干段,再分别抽取各段特征按顺序输入到隐马尔可

夫模型中,对音乐的时序性进行建模。Silla Jr 等

]

从音乐的节奏、音质、音高等

三个方面进行特征抽取,探究了各种特征组合对音乐曲风识别效果的影响。可以

看出,早期基于机器学习的声乐分类方法重点关注在音频特征抽取上,抽取的特征

质量对音乐曲风识别效果具有较大影响。

随着深度学习技术的不断成熟,越来越多的研究者开始关注将深度学习方法

运用到语音信号处理中。Rajanna 等

]

首先抽取音乐的相关特征,再将特征输入到

多层神经网络中对音乐曲风进行分类。雷文康

[10

]

首先抽取音乐一个分析窗内的音

乐特征,将多个分析窗形成的序列输入循环神经网络中对音乐曲风进行分类。以

上这些方法,虽然用到了深度学习方法,但还是依赖于抽取出的音乐统计特征。

Zhang 等

[11

]

首先对声音信号进行短时傅里叶变换生成频谱图 ,再利用卷积神经网

络对频谱图进行分类,取得了比机器学习方法更佳的效果。Bahuleyan

[12

]

利用图

像分类预训练模型 VGG-16 直接分类音乐的频谱图,取得了比机器学习模型更优

的结果,基于预训练模型的迁移学习方法在 7 类声乐分类的 F1 值为 0.62。

综上所述,基于机器学习的声乐分类方法依赖于研究人员手工构建的特征,基

于深度学习的声乐分类方法避免了手工构建大量特征,节省了人力成本,正成为声

乐分类研究中的主流。但是笔者也发现了以下问题。

（1）基于深度学习的声乐分类方法依赖由声音转化而成的频谱图,而频谱图

的各种采样参数需要人为设置,很少有研究者对采样参数的选取进行研究。

（2）缺乏将图像特征和统计特征结合起来的特征融合研究,未能充分利用声

音的各类特征。

因此,本文首先探索了机器学习方法在曲风识别上的表现,进而提出一种融合

统计特征和图像特征的深度学习声乐分类方法,并探索了梅尔频谱图采样参数的

选取对实验结果的影响。

3 实验设计和优化

3.1 数据来源

本次实验用到的数据集来源于 FMA（Free Music Archive）中的开源数据

[13

]

。FMA 是一个开放易获取的数据集,除音频外,还提供了十分丰富的与音乐相关

的元信息,包括歌曲名、音乐曲风种类、发行年份、艺术家、歌词以及其他相关

信息,适用于 MIR 研究,近年来已被广泛用于音乐曲风分类、音乐推荐、多模态信

息融合等研究

[14

,15

,16

]

。 FMA 数据集十分庞大 , 分为

fma_small 、 fma_medium 、 fma_large 、 fma_full 这 4 个部分 , 其中最大的

fma_full 数据集包含 106 574 首完整音乐, 涵盖 161 个音乐类别, 大小达到了

879GB。考虑到数据处理能力的限制,本文选取 fma_small 数据集进行实验,共计

8 000 首歌曲 , 大小为 7.2 GB, 包含 8 类音乐 , 分别是 Hip-

Hop、Pop、Folk、Experimental、Rock、International、Electronic、Instrum

ental。音频的保存格式为 MP3,每首音乐的时长控制在 30 s。

3.2 研究框架

为了探究不同模型在声乐分类任务上的表现,本文分别采用机器学习方法和

深度学习方法进行声乐分类实验,研究框架如图

所示。

（Tempo）

[21

]

等。频域特征是对一帧声音信号进行某种变化后产生的向量,即将

声音震动的频率转化为专门的声音特征向量,常见的频域特征有：梅尔倒谱系数

（ MFCCs ）

[22

]

、色度特征（ Chroma Features ）

[23

]

、频谱质心（ Spectral

Centroid）

[24

]

、谱对比度（Spectral Contrast）

[25

]

、频谱衰减（Spectral Roll-

off）

[26

]

、频谱带宽（Spectral Bandwidth

）

[27

]

等。部分重要特征说明如表

所示。

表 1语音信号统计特征说明

Table 1Description of Statistical Characteristics of Speech Signals

特征

类别

特征

名特征说明

时域

特征

中心

距

波形信号的均值、标准差、偏度、峰度等统计特征。主要用来

区分浊音和清音段,区分声母和韵母的分界、无话段和有话段的

分界

过零

率

对于连续语音信号,过零意味着时域波形通过时间轴,对于离散信

号,如果相邻的取样值改变符号,则称为过零。浊音时具有较低的

过零率,而清音时具有较高的过零率

节拍节拍可以表征音乐的快慢,被定义为每分钟的节拍数

频域

特征

梅尔

倒谱

系数

信号的梅尔倒谱系数是一小组特征,简明地描述了频谱包络的整

体形状,模拟了人声的特征

色度

特征

色度是音乐音频重要的表示,其中整个频谱被投影到 12 个区间,

代表音乐八度音的 12 个不同的半音(或色度)

频谱

质心

频谱质心指示声音的“质心”位于何处,并按照声音的频率的加权

平均值计算

新窗口打开|下载

CSV

根据以上提出的相关音频特征,本文对 30s 的音乐进行特征抽取操作。由于

完整的 30s 音频抽取出的相关特征维度可能过高,并且不同特征的维度存在差异,

本文在这些特征的基础上进行描述性统计分析操作,计算各特征对应的均值、方

差、偏度、锋度等统计值,将这些统计值拼接起来,得到共计 518 维的特征向量。

3.4 基于图像特征的深度学习方法

（1）梅尔频谱图

从音频文件中读取出来的原始语音信号通常称为声波（Raw Waveform）,

声波是一维的时域信号,如图

所示。声波在直观上很难看出频率的变化规律,因

此可以通过短时傅里叶变换将原始的声音信号堆叠成二维信号形成声谱图。

剩余16页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3582
资源: 1万+

基于特征融合的声乐分类研究.docx

基于文科生源的学前教育（本科）专业《声乐》课程教学改革研究与实践.docx

基于优化PSO-BP的多特征融合图像识别算法研究.docx

基于模糊神经网络的机器人感知系统多源信息融合的研究.docx

基于多特征融合的中文文本分类研究.docx

基于云计算的信息服务研究.docx

基于多帧光融合的高速摄像机宽动态研究.docx

基于机器学习的文本情感多分类的学习与研究.docx

“互联网+”创新创业教育与就业指导融合发展路径探究.docx

基于像素级的图像融合方法研究.docx

基于Matlab的图像融合方法.docx

基于IHS变换的遥感影像融合方法研究.docx

基于深度森林的多级特征融合SAR目标识别.docx

基于草图纹理和形状特征融合的草图识别.docx

多曝光图像融合算法研究2.docx

基于机器学习的流量分类.docx

基于云计算的校企合作平台设计与研究.docx

基于大数据的车内空气质量监控系统设计研究.docx

基于51单片机计步器的设计与研究.docx

基于单片机的电力监测仪的设计与研究.docx

基于无线传感器网络的海洋环境监测系统研究.docx

全国计算机等级考试二级Python真题及解析.docx

1000份ppt模版，PPT模板优秀PPT

导入证书可以解决”无法建立到信任根颁发机构的证书链"问题。

matlab批量读取excel表格数据并处理画图

OpenCv车辆识别训练模型

代码随想录知识星球精华-大厂面试八股文第二版v1.2.pdf

数学建模对乙醇偶合制备C4烯烃的问题研究

Vue-Element UI集成ECharts实现数据统计分析页代码部分(如果帮助到你，感谢关注点赞)

STM32F103C8T6中文数据手册

最新资源