没有合适的资源?快使用搜索试试~ 我知道了~
learning_invariances_in_speech_recognition:在这项工作中,我研究了语音命令任务的开发和...
共5个文件
py:3个
gitignore:1个
md:1个
需积分: 18 1 下载量 187 浏览量
2021-04-30
19:33:41
上传
评论
收藏 7KB ZIP 举报
温馨提示
学习语音识别中的不变性 抽象的 在这项工作中,我研究了语音命令任务的开发和深度学习模型的分析。 最先进的技术使用卷积神经网络(CNN),因为它们具有学习与语音相关的表示的内在本质。 特别是,我开发了在Google Speech Command Dataset上训练并在不同场景下经过测试的不同CNN。 语音识别的一个主要问题在于不同人群之间单词发音的差异:建立可变性不变模型的一种方法是增加扰动输入的数据集。 在这项工作中,我研究了两种扩充:分别在频率和时间上局部干扰输入的人声道长度干扰(VTLP)和同步重叠与相加(SOLA)。 在增强数据上训练的模型在准确性,精确度和性能上都优于在正常数据集上训练的所有模型。 CNN的设计也对学习不变性产生影响:使用不同类型的核大小进行卷积,起始的CNN架构实际上有助于学习对于语音可变性不变的特征。 直观地讲,这是因为该模型具有检测音频特征中不同语音模式长度
资源推荐
资源详情
资源评论
收起资源包目录
learning_invariances_in_speech_recognition-master.zip (5个子文件)
learning_invariances_in_speech_recognition-master
.gitignore 30B
README.md 2KB
dataset.py 3KB
main.py 12KB
my_model.py 11KB
共 5 条
- 1
资源评论
Dr熊吉
- 粉丝: 30
- 资源: 4603
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
- 林周瑜-论文.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功