没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
23页
Deep Learning for Audio Signal Processing的译文 摘要 最近深度学习的发展势头迅猛,本文对音频信号处理领域的最新深度学习技术进行了综述。文章将语音、音乐和环境声音处理并列考虑,以指出这些领域之间的相似性和差异性,突出总结了常用的方法、问题、重要参考文献,并探讨了各领域之间的相互交叉借鉴的潜力。综述了主要的特征表示方法(尤其是对数-梅尔谱和原始波形)和深度学习模型,包括卷积神经网络、长短时记忆网络的变体,以及更加符合音频特性的神经网络模型。随后,重点介绍了深度学习在音频信号处理中的应用领域,包括音频识别(自动语音识别、音乐信息检索、环境声音检测、定位和跟踪)以及合成和转换(音源分离、音频增强、生成模型用于语音、声音和音乐合成)。最后,确定了深度学习应用于音频信号处理领域的关键问题和未来研究方向。
资源推荐
资源详情
资源评论
Deep Learning for Audio Signal
Processing
摘要
最近深度学习的发展势头迅猛,本文对音频信号处理领域的最新深度学习技术
进行了综述。文章将语音、音乐和环境声音处理并列考虑,以指出这些领域之
间的相似性和差异性,突出总结了常用的方法、问题、重要参考文献,并探讨
了各领域之间的相互交叉借鉴的潜力。综述了主要的特征表示方法(尤其是对
数-梅尔谱和原始波形)和深度学习模型,包括卷积神经网络、长短时记忆网络
的变体,以及更加符合音频特性的神经网络模型。随后,重点介绍了深度学习
在音频信号处理中的应用领域,包括音频识别(自动语音识别、音乐信息检
索、环境声音检测、定位和跟踪)以及合成和转换(音源分离、音频增强、生
成模型用于语音、声音和音乐合成)。最后,确定了深度学习应用于音频信号
处理领域的关键问题和未来研究方向。
1.引言
人工神经网络迄今为止已经引起了三次广泛关注的浪潮。第一次是在 1957 年感
知器算法[1]的提出,第二次是在 1986 年反向传播算法[2]的出现,最后一次是
在 2012 年深度学习在语音识别[3]和图像分类[4]方面取得成功,导致了深度学
习的复兴,包括深度前馈神经网络[3]、卷积神经网络(CNNs,[6])和长短时
记忆(LSTM,[7])。在这种“深度”范式中,通过训练具有大量参数的架构来利用
机器并行计算的最新进展(如云计算、GPU 或 TPU [8])从海量数据中进行学
习。对深度学习的最近兴趣激增使其在信号处理的许多领域中实现了实际应
用,并常常在大规模上优于传统的信号处理方法。在这最近的浪潮中,深度学
习首先在图像处理领域取得了成功[4],但随后被广泛应用于语音处理、音乐和
环境声音处理,以及基因组学、量子化学、药物发现、自然语言处理和推荐系
统等众多领域。因此,在音频信号处理中先前使用的方法,如高斯混合模型、
隐马尔可夫模型和非负矩阵分解,在数据充足的应用中往往被深度学习模型所
超越。
尽管很多深度学习方法是从图像处理中借鉴的,但音频领域和图像处理领域存
在一些重要的差异,这需要我们特别关注。原始音频样本形成了一个一维的时
间序列信号,这与二维图像有根本的不同。为了进行处理,音频信号通常被转
换为二维的时频表示,但时间和频率这两个轴并不像图像中的水平和垂直轴那
样是均匀的。图像是目标的瞬时快照,通常作为整体或以小块进行分析,没有
太多的顺序约束;然而,音频信号必须按照时间顺序进行顺序研究。这些特性
导致了专门针对音频的解决方案的出现。
2.方法
为了铺垫,我们首先对音频分析和合成问题进行了概念上的概述(2.1),介绍
了常用的输入表示方法(2.2),以及不同应用领域之间共享的模型(2.3)。然
后,我们将简要介绍数据(2.4)和评估方法(2.5)。
2.1 问题分类
本次调查中考虑的任务可以根据要从输入中预测的目标类型分为不同的类别,
而输入始终是一个音频样本的时间序列。这种划分涵盖了两个独立的轴(参见
图 1):一方面,目标可以是单个全局标签、每个时间步的局部标签,或者是
一个自由长度的标签序列(即长度不是输入长度的函数)。其次,每个标签可
以是单个类别、一组类别或数值。接下来,我们将命名并给出考虑的不同组合
的示例。
编辑预测预测单个全局类别标签被称为序列分类。这样的类别标签可以是预
测的语言、说话人、音乐调性或声学场景,取自一组可能类别的预定义集合。
在多标签序列分类中,目标是可能类别集合的子集。例如,目标可以包括几个
声学事件,例如在弱标记的 AudioSet 数据集 [9] 中,或者一组音乐音高。当类
别彼此依赖时,多标签分类可以特别有效。在序列回归中,目标是连续范围内
的值。估计音乐的节奏或预测下一个音频样本可以被表述为这样的问题。请注
意,回归问题总是可以离散化并转化为分类问题:例如,当音频样本量化为 8
位时,预测样本将成为一个具有 256 个类别的分类问题。
当在每个时间步长预测一个标签时,每个时间步长可以包含固定数量的音频样
本,因此目标序列长度是输入序列长度的一部分。同样,我们可以区分不同的
情况。这里将每个时间步长的分类称为序列标记。例如,和弦注释和声音活动
检测。事件检测旨在预测事件发生的时间点,例如说话人变化或音符开始,可
以被表述为二元序列标记任务:在每个步骤中,区分事件的存在和不存在。每
个时间步的回归生成连续的预测,可以是到移动声源的距离、声音的音高或源
分离等。
在序列转导中,目标序列的长度不是输入长度的函数。没有已建立的术语来区
分分类、多标签分类和回归。例如语音转文字、音乐转录或语言翻译都属于序
列转导任务。
最后,我们还考虑了一些不是从音频信号开始的任务:音频合成可以被视为从
一系列条件变量中预测音频样本的序列转导或回归任务。音频相似度估计是一
个回归问题,它将一个连续值分配给一对可能长度不同的音频信号。
2.2 声音特征
在音频处理中,构建适当的特征表示和设计适当的分类器通常被视为分开的问
题。这种方法的一个缺点是所设计的特征可能不适用于当前的分类目标。深度
神经网络(DNNs)可以看作是同时进行特征提取和目标优化(如分类)的过
程。例如,在语音识别中,Mohamed 等人 [10] 表明,DNN 的较低层的激活可
以被视为说话者自适应特征,而 DNN 的较高层的激活可以被视为执行基于类
别的区分。
几十年来,梅尔频率倒谱系数(MFCCs)[11] 一直被用作音频分析任务的主要
声学特征表示。它们是将幅度谱投影到一组较少的频带上,转换为对数幅度,
并通过离散余弦变换(DCT)进行近似白化和压缩。使用深度学习模型后者已
被证明是不必要的或不受欢迎的,因为它会移除信息并破坏空间关系。省略它
会得到对数梅尔谱,这是在音频领域中非常流行的特征表示。
梅尔滤波器组用于投射频率,其灵感来源于人类听觉系统和关于语音感知的生
理学发现。对于某些任务而言,使用一种能够将移调作为平移来捕捉的表示形
式更为合适。移调一个音调包括按一个共同因子缩放基频和泛音,这在对数频
率尺度上变成了一个位移。常量 Q 谱通过一个合适的滤波器组实现了这样一个
频率尺度。
(log-mel 或常量 Q)频谱图是一系列随时间变化的频谱。就像自然图像一样,自
然声音的相邻频谱图箱在时间和频率上是相关的。然而,由于声音产生的物理
特性,对于那些是同一基频倍数的频率(谐波)之间存在额外的相关性。为了
让一个空间局部模型(例如,CNN)考虑到这些因素,可以添加一个第三维
度,直接得出谐波序列的幅度[14], [15]。此外,与图像不同,不同频带之间的
值分布有显著差异。为了对抗这一点,可以对频谱图按带分别进行标准化。
在计算频谱时,窗口大小决定了时间分辨率(短窗口)和频率分辨率(长窗
口)之间的权衡。无论是对于 log-mel 频谱还是常量 Q 频谱,都可以对高频使
用更短的窗口,但这会导致频谱图不均匀地模糊,不适合用于空间局部模型。
替代方法包括使用不同窗口长度计算频谱,将其投影到相同的频带上,并作为
独立的通道处理[16]。在文献[17]中,作者还研究了不同频谱特征的组合。
为了避免依赖于设计好的滤波器组,已经提出了各种方法来进一步简化特征提
取过程,并将其推迟到数据驱动的统计模型学习中。与 mel 间隔的三角滤波器
不同,数据驱动的滤波器已经学习并使用。文献[18]和[19]使用全分辨率幅度
谱,文献[20]至[23]直接使用音频信号的原始波形表示作为输入,并与网络的其
余部分一起学习数据驱动的滤波器,用于目标任务。通过这种方式,学习到的
滤波器直接针对目标目的进行了优化。在文献[24]中,模型的底层被设计为模
仿 log-mel 频谱的计算,但所有滤波器参数都是从数据中学习得到的。在文献
[25]中,放弃了滤波器组的概念,学习了一个因果回归模型,该模型基于时间
域波形样本,无需任何人类先验知识。
2.3 模型
音频信号可以表示为原始音频帧或人工设计的特征向量(例如对数梅尔频谱/常
量-Q 变换/复数谱)序列、矩阵(如频谱图)或张量(如堆叠的频谱图)。这些
信号可以通过各种深度学习模型进行分析。与图像处理等其他领域类似,对于
音频,通常会堆叠多个前馈、卷积和循环(如 LSTM)层以增加建模能力。深
度神经网络是一个有许多堆叠层的神经网络[26]。
1)卷积神经网络(Convolutional Neural Networks,CNNs):CNNs 基于将输
入与可学习的卷积核进行卷积运算。对于频谱输入特征,通常采用一维时间卷
积或二维时频卷积,而对于原始波形输入,则应用一维时间域卷积。卷积层通
常计算多个特征图(通道),每个特征图由对应的卷积核生成。在卷积层之上
添加池化层可以对学习到的特征图进行下采样。一个 CNN 通常由一系列卷积
层和池化层交替堆叠组成,然后是一个或多个全连接层。对于序列标注任务,
可以省略全连接层,得到一个全卷积网络(FCN)。
卷积神经网络(CNN)的感受野(用于计算预测的样本或频谱数量)由其网络
结构固定。可以通过使用更大的卷积核或堆叠更多层来增加感受野。特别是对
于具有高采样率的原始波形输入,要达到足够的感受野大小可能导致 CNN 的
参数数量变多和计算复杂度增高。作为替代方案,可以使用扩张卷积(也称为
空洞卷积或带孔卷积)[25], [27], [29],通过在滤波器系数之间插入零,将卷积
滤波器应用于比其滤波器长度更大的区域。一系列扩张卷积能够在只有少数几
层的情况下获得非常大的感受野,同时保持输入分辨率以及计算效率。
截至目前,关于如何确定给定任务的最佳 CNN 架构(卷积核的大小、池化和
特征图的大小、通道数和连续层的数量)的操作性和经验证的理论尚不可得
(参见[30])。因此,选择 CNN 的架构在很大程度上是基于实验,并根据验证
误差进行选择。这导致了一些经验法则的指导方针,比如对于较少的数据,应
该减少参数的数量[31];随着后续卷积层中特征图尺寸的减小,应增加通道
数;考虑时间上下文的必要大小;以及与任务相关的设计(例如分析或合成/转
换)。
2)循环神经网络(RNNs):即使使用扩张卷积,CNNs 能够建模的有效上下文
大小仍然有限。RNN 采用不同的方法来建模序列[32]:它们从当前时间步的输
入和上一时间步的隐藏状态计算输出。这本质上模拟了输入中的时间依赖关
剩余22页未读,继续阅读
资源评论
蔡栖月
- 粉丝: 290
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功