没有合适的资源?快使用搜索试试~ 我知道了~
著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识别准确率上的稳定提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成
资源详情
资源评论
资源推荐
阿里妹导读:近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN,将
全球语音识别准确率纪录提高至96.04%(这一数据测试基于世界最大的免费语音识别数据库
LibriSpeech)。
对比目前业界使用最为广泛的LSTM模型,DFSMN模型训练速度更快、识别准确率更高。采
用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3
倍,语音识别速度提高了2倍。
开源地址:
https://github.com/tramphero/kaldi
本文作者:张仕良
阿里开源语音识别模型
DFSMN
在近期举行的云栖大会武汉峰会上,装有DFSMN语音识别模型的“AI收银员”在与真人店员
的PK中,在嘈杂环境下准确识别了用户的语音点单,在短短49秒内点了34杯咖啡。此外,装
备这一语音识别技术的自动售票机也已在上海地铁“上岗”。
著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型,在语音识
别准确率上的稳定提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成果之
一,对全球学术界和AI技术应用都有巨大影响。”
阿里开源语音识别模型DFSMN
图:阿里在GitHub平台上开源了自主研发的DFSMN语音识别模型
语音识别声学模型
语音识别技术一直都是人机交互技术的重要组成部分。有了语音识别技术,机器就可以像人类
一样听懂说话,进而能够思考、理解和反馈。
近几年随着深度学习技术的使用,基于深度神经网络的语音识别系统性能获得了极大的提升,
开始走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广
泛的应用。
目前主流的语音识别系统普遍采用基于深度神经网络和隐马尔可夫(Deep Neural
Networks-Hidden Markov Model,DNN-HMM)的声学模型,其模型结构如图 1所示。
声学模型的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如 PLP,
MFCC 和 FBK等。而模型的输出一般采用不同粒度的声学建模单元,例如单音素 (mono-
phone)、单音素状态、绑定的音素状态 (tri-phonestate) 等。从输入到输出之间可以采用不
同的神经网络结构,将输入的声学特征映射得到不同输出建模单元的后验概率,然后再结合
HMM进行解码得到最终的识别结果。
最早采用的网络结构是前馈全连接神经网路(Feedforward Fully-connected Neural
Networks, FNN)。FNN实现固定输入到固定输出的一对一映射,其存在的缺陷是没法有效
利用语音信号内在的长时相关性信息。一种改进的方案是采用基于长短时记忆单元(Long-
Short Term Memory,LSTM)的循环神经网络(Recurrent Neural Networks,
RNN)。LSTM-RNN通过隐层的循环反馈连接,可以将历史信息存储在隐层的节点中,从而
可以有效地利用语音信号的长时相关性。
图 1. 基于DNN-HMM的语音识别系统框图
进一步地通过使用双向循环神经网络(BidirectionalRNN),可以有效地利用语音信号历史
以及未来的信息,更有利于语音的声学建模。基于循环神经网络的语音声学模型相比于前馈全
连接神经网络可以获得显著的性能提升。但是循环神经网络相比于前馈全连接神经网络模型更
加复杂,往往包含更多的参数,这会导致模型的训练以及测试都需要更多的计算资源。
另外基于双向循环神经网络的语音声学模型,会面临很大的时延问题,对于实时的语音识别任
务不适用。现有的一些改进的模型,例如,基于时延可控的双向长短时记忆单元(Latency
Controlled LSTM,LCBLSTM )[1-2],以及前馈序列记忆神经网络(Feedforward
SequentialMemory Networks,FSMN)[3-5]。去年我们在工业界第一个上线了基于
LCBLSTM的语音识别声学模型。配合阿里的大规模计算平台和大数据,采用多机多卡、16bit
量化等训练和优化方法进行声学模型建模,取得了相比于FNN模型约17-24%的相对识别错误
率下降。
FSMN
模型的前世今生
1. FSMN
模型
剩余10页未读,继续阅读
王者丶君临天下
- 粉丝: 17
- 资源: 265
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 人工智能实验四 感知器算法的设计实现
- java小项目多线程多线程 复制文件 冒泡排序 群聊
- 四数之和(java代码).docx
- 701837906919458TapScanner v3.0.10 (Pro).apk
- 青岛大学人工智能实验二 利用α-β搜索的博弈树算法编写一字棋游戏
- ### 1、项目介绍 本项目Scrapy进行数据爬取,并使用Django框架+PyEcharts实现可视化大屏 效果如下:
- # 微信小程序-健康菜谱 基于微信小程序的一个查找检索菜谱的应用 ### 效果 !动态图(./res/gif/demo
- zabbix-get命令包资源
- 289ssm-mysql-jsp 计算机课程实验管理系统.zip(可运行源码+数据库文件+文档)
- 毕业设计,基于PyQt5实现的可视化界面的Python车牌自动识别系统源码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0