2017.8.15黄敬雯1

preview
需积分: 0 0 下载量 124 浏览量 更新于2022-08-08 收藏 196KB DOCX 举报
本文主要探讨的是音频场景识别的研究,特别是在深度学习技术的应用下如何改进特征提取和分类方法。文章回顾了声学特征分析、音频场景识别和深度神经网络的研究进展,指出当前的主流方法大多基于传统的特征提取(如梅尔频率倒谱系数MFCC)和机器学习分类器(如k近邻KNN)。 作者提出的创新点在于利用深度学习,特别是卷积神经网络(CNN)和解卷积神经网络(DeCNN),对音频特征进行更深入的分析和提取。第二章详细介绍了基于MFCC和KNN的基线系统,该系统首先进行数据预处理,然后提取MFCC特征,最后使用KNN进行场景分类。在实验过程中,通过调整参数找到最优设置。 第三章转向CNN的应用,分析了传统特征的局限性和基于频域的长期分析的优势。CNN被用来对语谱图进行深层特征分析,提高了识别性能。本章详细阐述了CNN的架构、学习算法,并通过实验验证了其效果,与基线系统进行了对比。 第四章则介绍了解卷积神经网络在音频特征分析和场景分类中的应用。解卷积神经网络用于反向解析特征,更好地理解和提取场景特征。同样,本章也包括了算法设计和实验结果的比较。 在音频场景识别的现状中,常见的识别方法遵循模式识别框架,包括特征提取、分类器应用。过去的研究尝试了多种分类器,如支持向量机(SVM)、高斯混合模型(GMM)、KNN和隐马尔科夫模型(HMM)。此外,还有结合不同模型的组合方法,例如使用SVM和GMM的组合,以及HMM和支持向量机的级联。关键声学事件检测也被证明是有效的方法,包括基于非负矩阵分解的声源分离和潜在语义分析的重叠事件检测。匹配追踪技术用于提取更鲁棒的特征,而多阶GMM用于声学事件检测。 这篇研究展示了深度学习如何革新音频场景识别,通过CNN和DeCNN提高特征提取的效率和精度,挑战并超越了传统的MFCC和KNN方法。这些进步对于提升音频处理、环境感知和语音识别等领域具有重要意义。
无能为力就要努力
  • 粉丝: 18
  • 资源: 332
上传资源 快速赚钱
voice
center-task 前往需求广场,查看用户热搜

最新资源