人类主要依靠语言进行交流沟通,但在使用计算机时却离不开双手,通常使用键盘输
入计算机命令,或根据计算机提示进行点击操作。随着语音搜索服务及智能音箱产品的日
渐成熟,与语音识别技术相关的智能车载、智能家居、智能客服等应用陆续走进大众生
活,促使人们使用计算机的操作方式发生转变。例如在身份识别的应用方面,与指纹识
别、虹膜识别等生物识别技术相比,语音识别技术无需记忆密码,身份验证过程更为快
捷,一条简短的语音指令即可代替以往的复杂操作,用户易于接受,便于推广应用。
在深度学习技术兴起之前,语音识别技术主要采用隐马尔可夫模型
[1]
(HMM,
Hidden Markov Model)和高斯混合模型
[2]
( GMM,Gaussian Mixed Model);其中,
HMM 用于描述音频信号的动态特性,GMM 用于描述 HMM 每个状态的静态特性。这个
时期因受技术所限,语音识别率提升缓慢,语音识别技术的发展一度停滞不前。随着深度
神经网络
[3]
(DNN,Deep Neural Network)的兴起,语音识别技术框架逐渐由 GMM-HMM
转变为 DNN-HMM,以 DNN 模型替代 GMM 模型,无需假设语音数据的分布,即可获得
语音时序结构信息,使得状态分类概率得以改善,语音识别准确率显著提升。特别是在端
到端(E2E,End-to-End)机器学习策略出现后,语音识别技术开始进入百花齐放时代,涌
现出多种复杂的训练网络。其中,较为常用的 E2E 机器学习模型有:连接时序分类
(CTC,Connectionist Temporal Classification)模型
[4]
、递归神经网络传感器(RNN-T,
Recurrent Neural Network Transducer)模型
[5]
、LAS(Listen Attend and Spell)模型
[6]
,T-T
(Transformer-Transducer)模型
[7]
。与传统语音识别模型不同,CTC 模型不需要在训练数
据前对语音与标签进行对齐处理,节省了训练开销, 但是 CTC 模型没有考虑上下文之间
的关系,生成的文本质量较差。RNN-T 模型是在 CTC 模型的基础上加以改进,能够支持
流式语音识别,具有语言模型建模能力,主要用于辅助文本的生成, 解决了 CTC 模型生
成文本质量差的问题。LAS 模型利用注意力(Attention)机制实现有效的对齐,因其考虑
了上下文信息,在准确度上会略高于其它模型,但正是因为它需要上下文信息,因而无法
支持流式语音识别,且准确度会受到输入语音长度的影响。T-T 模型是对 RNN-T 的改
进,它将 RNN-T 中长短时记忆
[8]
(LSTM, Long Short Term Memory)编码器替换为
Transformer
[9]
编码器,Transformer 是一种非循环的注意力机制,可以让网络执行并行计
算,能够支持流式语音识别。
近年来,我国铁路运输能力和服务水平持续提升,铁路凭借其便捷性、舒适性和安全
性,成为民众出行首选的交通方式。目前,语音识别技术在铁路领域主要应用于面向旅客
的铁路互联网售票系统(简称:12306)智能客服,在站车交互、移动检票、列车补票等业
务中尚未广泛应用。研究面向铁路旅客服务应用的语音识别模型时,首先要选用合适的语
音识别模型进行优化改进,使其达到较高的识别准确率,并针对特定的应用场景构造特定
的铁路领域训练数据集,将其用于语音识别模型的训练,以增强模型的铁路领域特征;此
外,目前的铁路旅客服务涉及铁路出行条例、旅客常问问题等众多文本信息,为此,在语
音识别模型的基础上结合特定的文本处理机制,将进一步有效地提高具体应用的语音识别
准确率。
评论0
最新资源