长短期记忆型递归神经网络及其在语音识别中的应用
摘要:经过几十年的研究与发展,语音识别建立了以隐马尔可夫模型(Hidden Markov Models,HMM)为
基础的框架。近几年,在 HMM 基础上深度神经网络(Deep Neural Network,DNN)的应用大幅度提升了语
音识别系统的性能。DNN 将每一帧语音及其前后的几帧语音拼接在一起作为网络的输入,从而利用语音
序列中上下文的信息。DNN 中每次输入的帧数是固定的,不同的窗长对最终的识别结果会有影响。递归
神经网络(Recurrent neural network,RNN)通过递归来挖掘序列中的上下文相关信息,在一定程度上克
服了 DNN 的缺点。但是 RNN 在训练中很容易出现梯度消失的问题,无法记忆长时信息。长短期记忆单元
(Long Short-Term Memory,LSTM)通过特定的门控单元使得当前时刻的误差能够保存下来并选择性传
给特定的单元,从而避免了梯度消失的问题。本文对 RNN 及 LSTM 的基本原理进行了介绍,并且在
TIMIT 语音数据库上进行了实验。实验结果表明,LSTM 型递归神经网络在语音识别上的可以取得较好的
识别效果。
关键词:语音识别,隐马尔可夫模型,递归神经网络,长短期记忆
1. 引言
语音识别(Auto Speech Recognition,ASR)属于模式识别的范畴,其目的是让机器自动识别出语音
中的内容信息,并将其转换为文本。目前主流的语音识别系统采用的是基于隐马尔可夫模型的声学模型,
它能很好地对语音的声学特性进行建模。在传统方式下,对于 HMM 模型的每一个状态,使用混合高斯模
型(Gaussian Mixture Model,GMM)描述该状态下观察符号序列的输出概率分布。在模型的训练过程中,
利用 Baum-Welch 算法、前向-后向算法(Forward-Backward)等算法训练 GMM-HMM 声学模型参数。在
识别时,利用训练好的 GMM-HMM 声学模型,结合前向-后向算法、维特比算法等计算出输入语音对应的
马尔可夫状态序列,然后利用语言模型(Language Model,LM)将声学模型输出的状态序列转换为文本。
随着 Hinton 等人提出将受限玻尔兹曼机(Restricted Boltzmann Machines, RBM)作为 DNN 的初始化
方案,学术界再次掀起了深度神经网络的研究热潮[1]。特别是语音识别领域,DNN 的引入取代了原来的
GMM-HMM 结构的声学模型,产生了新的 DNN-HMM 混合结构的识别框架,大大提高了识别性能。DNN
之所以优于 GMM,主要有以下几个原因:1)GMM 是个局部的模型,每个参数只和一部分训练数据相关,
而 DNN 是全局的模型,每个参数和全部的训练数据相关,这样在数据量很大的情况下 DNN 就能学习到更
多的知识。2)由于受限于模型参数与训练的问题, GMM 要求输入的特征只能是各维不相关的梅尔频率
倒谱特征(Mel Frequency Cepstrum Coefficient,MFCC),这样就很难利用到上下文的信息,而 DNN 没
有这个限制,它将每一帧语音及其前后的几帧语音拼接在一起作为网络的输入,从而能够利用更多的上下
文信息,使得分类更加准确。
语音是一个典型的时间序列信号,相邻的帧之间的特征有很大的相关性,这是时间序列数据的特点 。
DNN 虽然通过拼帧操作利用了上下文信息,但是这里拼帧操作的窗长是通过实验得到的,而且是固定的。
不同的窗长对最终的分类结果会有不同的影响。这是 DNN 针对序列数据建模的缺点,而 RNN 就可以很好
的利用序列数据的相关性,在一定程度上克服 DNN 的这个缺点,同时保持深度学习的优势。但是 RNN 在
训练中很容易出现梯度消失的问题,无法记忆长时信息。尝试解决这个问题的方法有很多,其中一种高效
而且使用很广的方法式引入长短期记忆单元(Long Short-Term Memory,LSTM)。LSTM 通过特定的门
控单元(gate)将误差保持在更为恒定的水平,让递归网络能够进行多个时间步的学习,从而避免了梯度
消失的问题。LSTM 型递归神经网络的优势使得其成为目前语音识别领域的研究热点 [2,3,4],并且在实际
应用中发挥出越来越重要的作用。
2. RNN 的基本原理和结构
RNN 很早就提出来了,提出 RNN 的主要想法就是通过递归获取序列的相关信息。最近随着深度学习
评论2
最新资源