没有合适的资源？快使用搜索试试~ 我知道了~

文库首页行业研究数据集learning_invariances_in_speech_recognition:在这项工作中，我研究了语音命令任务的开发和深度学习模型的分析。最先进的技术使用卷积神经网络（CNN），因为它们具有学习与语音相关的表示的内在本质。特别是，我开发了在Google Speech Command Dataset上训练并在不同场景下经过测试的不同CNN。语音识别的主要问题在于不同人之间单词发音的差异

learning_invariances_in_speech_recognition:在这项工作中，我研究了语音命令任务的开发和...

共5个文件

py：3个

gitignore：1个

md：1个

speech-recognition

Python

需积分: 18 1 下载量 187 浏览量 2021-04-30 19:33:41 上传评论收藏 7KB ZIP 举报

温馨提示

学习语音识别中的不变性抽象的在这项工作中，我研究了语音命令任务的开发和深度学习模型的分析。最先进的技术使用卷积神经网络（CNN），因为它们具有学习与语音相关的表示的内在本质。特别是，我开发了在Google Speech Command Dataset上训练并在不同场景下经过测试的不同CNN。语音识别的一个主要问题在于不同人群之间单词发音的差异：建立可变性不变模型的一种方法是增加扰动输入的数据集。在这项工作中，我研究了两种扩充：分别在频率和时间上局部干扰输入的人声道长度干扰（VTLP）和同步重叠与相加（SOLA）。在增强数据上训练的模型在准确性，精确度和性能上都优于在正常数据集上训练的所有模型。 CNN的设计也对学习不变性产生影响：使用不同类型的核大小进行卷积，起始的CNN架构实际上有助于学习对于语音可变性不变的特征。直观地讲，这是因为该模型具有检测音频特征中不同语音模式长度

资源推荐

资源详情

资源评论