【免费】DeepLearningforAudioSignalProcessing译文_音频原始波形作为输入资源-CSDN文库

需积分: 0 151 浏览量 2024-02-05 18:23:50 上传评论收藏 488KB PDF 举报

资源推荐

资源详情

资源评论

Deep Learning for Audio Signal

Processing

摘要

最近深度学习的发展势头迅猛，本文对音频信号处理领域的最新深度学习技术

进行了综述。文章将语音、音乐和环境声音处理并列考虑，以指出这些领域之

间的相似性和差异性，突出总结了常用的方法、问题、重要参考文献，并探讨

了各领域之间的相互交叉借鉴的潜力。综述了主要的特征表示方法（尤其是对

数-梅尔谱和原始波形）和深度学习模型，包括卷积神经网络、长短时记忆网络

的变体，以及更加符合音频特性的神经网络模型。随后，重点介绍了深度学习

在音频信号处理中的应用领域，包括音频识别（自动语音识别、音乐信息检

索、环境声音检测、定位和跟踪）以及合成和转换（音源分离、音频增强、生

成模型用于语音、声音和音乐合成）。最后，确定了深度学习应用于音频信号

处理领域的关键问题和未来研究方向。

1.引言

人工神经网络迄今为止已经引起了三次广泛关注的浪潮。第一次是在 1957 年感

知器算法[1]的提出，第二次是在 1986 年反向传播算法[2]的出现，最后一次是

在 2012 年深度学习在语音识别[3]和图像分类[4]方面取得成功，导致了深度学

习的复兴，包括深度前馈神经网络[3]、卷积神经网络（CNNs，[6]）和长短时

记忆(LSTM,[7])。在这种“深度”范式中，通过训练具有大量参数的架构来利用

机器并行计算的最新进展（如云计算、GPU 或 TPU [8]）从海量数据中进行学

习。对深度学习的最近兴趣激增使其在信号处理的许多领域中实现了实际应

用，并常常在大规模上优于传统的信号处理方法。在这最近的浪潮中，深度学

习首先在图像处理领域取得了成功[4]，但随后被广泛应用于语音处理、音乐和

环境声音处理，以及基因组学、量子化学、药物发现、自然语言处理和推荐系

统等众多领域。因此，在音频信号处理中先前使用的方法，如高斯混合模型、

隐马尔可夫模型和非负矩阵分解，在数据充足的应用中往往被深度学习模型所

超越。

测的语言、说话人、音乐调性或声学场景，取自一组可能类别的预定义集合。

在多标签序列分类中，目标是可能类别集合的子集。例如，目标可以包括几个

声学事件，例如在弱标记的 AudioSet 数据集 [9] 中，或者一组音乐音高。当类

别彼此依赖时，多标签分类可以特别有效。在序列回归中，目标是连续范围内

的值。估计音乐的节奏或预测下一个音频样本可以被表述为这样的问题。请注

意，回归问题总是可以离散化并转化为分类问题：例如，当音频样本量化为 8

位时，预测样本将成为一个具有 256 个类别的分类问题。

当在每个时间步长预测一个标签时，每个时间步长可以包含固定数量的音频样

本，因此目标序列长度是输入序列长度的一部分。同样，我们可以区分不同的

情况。这里将每个时间步长的分类称为序列标记。例如，和弦注释和声音活动

检测。事件检测旨在预测事件发生的时间点，例如说话人变化或音符开始，可

以被表述为二元序列标记任务：在每个步骤中，区分事件的存在和不存在。每

个时间步的回归生成连续的预测，可以是到移动声源的距离、声音的音高或源

分离等。

在序列转导中，目标序列的长度不是输入长度的函数。没有已建立的术语来区

分分类、多标签分类和回归。例如语音转文字、音乐转录或语言翻译都属于序

列转导任务。

最后，我们还考虑了一些不是从音频信号开始的任务：音频合成可以被视为从

一系列条件变量中预测音频样本的序列转导或回归任务。音频相似度估计是一

个回归问题，它将一个连续值分配给一对可能长度不同的音频信号。

2.2 声音特征

在音频处理中，构建适当的特征表示和设计适当的分类器通常被视为分开的问

题。这种方法的一个缺点是所设计的特征可能不适用于当前的分类目标。深度

神经网络（DNNs）可以看作是同时进行特征提取和目标优化（如分类）的过

程。例如，在语音识别中，Mohamed 等人 [10] 表明，DNN 的较低层的激活可

以被视为说话者自适应特征，而 DNN 的较高层的激活可以被视为执行基于类

别的区分。

几十年来，梅尔频率倒谱系数（MFCCs）[11] 一直被用作音频分析任务的主要

声学特征表示。它们是将幅度谱投影到一组较少的频带上，转换为对数幅度，

并通过离散余弦变换（DCT）进行近似白化和压缩。使用深度学习模型后者已

被证明是不必要的或不受欢迎的，因为它会移除信息并破坏空间关系。省略它

会得到对数梅尔谱，这是在音频领域中非常流行的特征表示。

梅尔滤波器组用于投射频率，其灵感来源于人类听觉系统和关于语音感知的生

理学发现。对于某些任务而言，使用一种能够将移调作为平移来捕捉的表示形

式更为合适。移调一个音调包括按一个共同因子缩放基频和泛音，这在对数频

率尺度上变成了一个位移。常量 Q 谱通过一个合适的滤波器组实现了这样一个

频率尺度。

(log-mel 或常量 Q)频谱图是一系列随时间变化的频谱。就像自然图像一样，自

然声音的相邻频谱图箱在时间和频率上是相关的。然而，由于声音产生的物理

特性，对于那些是同一基频倍数的频率（谐波）之间存在额外的相关性。为了

让一个空间局部模型（例如，CNN）考虑到这些因素，可以添加一个第三维

度，直接得出谐波序列的幅度[14], [15]。此外，与图像不同，不同频带之间的

值分布有显著差异。为了对抗这一点，可以对频谱图按带分别进行标准化。

在计算频谱时，窗口大小决定了时间分辨率（短窗口）和频率分辨率（长窗

口）之间的权衡。无论是对于 log-mel 频谱还是常量 Q 频谱，都可以对高频使

用更短的窗口，但这会导致频谱图不均匀地模糊，不适合用于空间局部模型。

替代方法包括使用不同窗口长度计算频谱，将其投影到相同的频带上，并作为

独立的通道处理[16]。在文献[17]中，作者还研究了不同频谱特征的组合。

为了避免依赖于设计好的滤波器组，已经提出了各种方法来进一步简化特征提

取过程，并将其推迟到数据驱动的统计模型学习中。与 mel 间隔的三角滤波器

不同，数据驱动的滤波器已经学习并使用。文献[18]和[19]使用全分辨率幅度

谱，文献[20]至[23]直接使用音频信号的原始波形表示作为输入，并与网络的其

余部分一起学习数据驱动的滤波器，用于目标任务。通过这种方式，学习到的

滤波器直接针对目标目的进行了优化。在文献[24]中，模型的底层被设计为模

仿 log-mel 频谱的计算，但所有滤波器参数都是从数据中学习得到的。在文献

[25]中，放弃了滤波器组的概念，学习了一个因果回归模型，该模型基于时间

域波形样本，无需任何人类先验知识。

2.3 模型

音频信号可以表示为原始音频帧或人工设计的特征向量（例如对数梅尔频谱/常

量-Q 变换/复数谱）序列、矩阵（如频谱图）或张量（如堆叠的频谱图）。这些

信号可以通过各种深度学习模型进行分析。与图像处理等其他领域类似，对于

音频，通常会堆叠多个前馈、卷积和循环（如 LSTM）层以增加建模能力。深

度神经网络是一个有许多堆叠层的神经网络[26]。

1）卷积神经网络（Convolutional Neural Networks，CNNs）：CNNs 基于将输

入与可学习的卷积核进行卷积运算。对于频谱输入特征，通常采用一维时间卷

积或二维时频卷积，而对于原始波形输入，则应用一维时间域卷积。卷积层通

常计算多个特征图（通道），每个特征图由对应的卷积核生成。在卷积层之上

添加池化层可以对学习到的特征图进行下采样。一个 CNN 通常由一系列卷积

层和池化层交替堆叠组成，然后是一个或多个全连接层。对于序列标注任务，

可以省略全连接层，得到一个全卷积网络（FCN）。

卷积神经网络（CNN）的感受野（用于计算预测的样本或频谱数量）由其网络

结构固定。可以通过使用更大的卷积核或堆叠更多层来增加感受野。特别是对

于具有高采样率的原始波形输入，要达到足够的感受野大小可能导致 CNN 的

参数数量变多和计算复杂度增高。作为替代方案，可以使用扩张卷积（也称为

空洞卷积或带孔卷积）[25], [27], [29]，通过在滤波器系数之间插入零，将卷积

滤波器应用于比其滤波器长度更大的区域。一系列扩张卷积能够在只有少数几

层的情况下获得非常大的感受野，同时保持输入分辨率以及计算效率。

截至目前，关于如何确定给定任务的最佳 CNN 架构（卷积核的大小、池化和

特征图的大小、通道数和连续层的数量）的操作性和经验证的理论尚不可得

（参见[30]）。因此，选择 CNN 的架构在很大程度上是基于实验，并根据验证

误差进行选择。这导致了一些经验法则的指导方针，比如对于较少的数据，应

该减少参数的数量[31]；随着后续卷积层中特征图尺寸的减小，应增加通道

数；考虑时间上下文的必要大小；以及与任务相关的设计（例如分析或合成/转

换）。

2)循环神经网络（RNNs）：即使使用扩张卷积，CNNs 能够建模的有效上下文

大小仍然有限。RNN 采用不同的方法来建模序列[32]：它们从当前时间步的输

入和上一时间步的隐藏状态计算输出。这本质上模拟了输入中的时间依赖关

剩余22页未读，继续阅读

评论收藏

内容反馈

蔡栖月

粉丝: 290
资源: 3

Deep Learning for Audio Signal Processing译文

最新资源

Deep Learning for Audio Signal Processing译文

Deep Learning for Natural Language Processing pdf

Deep Learning for Natural Language Processing(CS224d).ra

Deep Learning for Natural Language processing.pdf

Deep Learning for Natural Language Processing

Deep Learning for Natural Language Processing--2018

Deep Learning for Image Processing Applications

2013-Deep Learning for Signal and Information Processing

Deep Learning in Natural Language Processing 无水印原版pdf

deep-learning-for-signal-white-paper.pdf

Deep Learning for Natural Language Processing.pdf

台湾大学李老师Deep Learning for Human Language Processing (2020,Spring)

Deep Learning for Computer Vision with Python

deep learning for computer vision with python

Deep_Learning_for_Medical_Image_Processing.pdf

Deep Learning for Time Series Forecasting - by Jason Brownlee

34个经典javaweb项目实例.zip

项目源码：基于Hadoop+Spark招聘推荐可视化系统 大数据项目 计算机毕业设计

毕业设计 springBoot人力资源管理系统+毕业论文+前后端源代码

毕业设计：舆情监测系统（SpringBoot+NLP）

基于spring boot的小区物业管理系统源码+论文+答辩ppt

计算机毕业设计：Flask股票数据采集分析可视化系统 python+爬虫+金融数据

毕业设计-基于JAVA的springboot超市进销存系统(源代码+论文）

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

基于深度学习的课堂行为识别和考试作弊检测系统的设计与实现（python源码）

基于51单片机的智能电子秤系统设计(含代码仿真及论文)

Python爬取智联招聘网站数据，2023.10.31测试，可跑

OpenCV和YOLOv8 实时车速检测+车辆检测跟踪系统 深度学习 测速 计算机视觉 计算机毕业设计

计算机毕业设计源码：基于python旅游推荐系统+爬虫+分析可视化 +django框架

基于SpringBoot+Vue的学生选课管理系统的毕业设计，Vue+SpringBoot+MybatisPlus+MySQL

最新资源

项目源码：基于Hadoop+Spark招聘推荐可视化系统大数据项目计算机毕业设计

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计

OpenCV和YOLOv8 实时车速检测+车辆检测跟踪系统深度学习测速计算机视觉计算机毕业设计