马尔可夫模型在语音识别中的应用

所需积分/C币:35 2011-11-20 13:48:56 179KB PDF
42
收藏 收藏
举报

马尔可夫模型在语音识别中的应用,时间序列结构 的建模能力. 本文首先深入浅出地介绍 了 HMM 的基本技术和一个基于 HMM 的孤立词语音 识 别 系统 的构成 方 法 , 其 次 , 基 于 HMM 尚存有 一 些缺 陷 。 造 成语 音 识别 能 力较 弱 , 为此 本 文又进 一 步 阐述 了 语 音识 别 应用 中的几 种改 进 的 HMM 系统及 目前 的热 点方 法 —— HMM 与 ANN构 成 的混合 网络.
维普资讯htp://ww. cqvip. com 科数学 第18卷 (ⅱ)递推:δ,(j)= max Ld-:(i)a,Jb(),2≤t≤T,1≤i≤N ≤≤N y1(j)- arg max8,()a,,2≤xT1≤N, (ⅲ)结束:=mx[6r(i)]q=郎x[6,()], (ⅳv)路径回溯(即最佳状态链的确定):q=*1(q) 由此町用Ⅴ uteri算法求得P'(O/λ)及最伟状态序列:qi,g2∴…,q Baum- Welch算法可简单描述如下: 5,(t,j)=P S,O.A). y, P(g,=S,/ 0.d) 则 6〔i) a()·a,·b,(o,+1)+1(j) y.(i)=>,,(ij). 由此可得 ∑y,(j) =y1().a,= b,j ,(i) ∑ A={,A,B}即是重估后模型参数且P(O/)≥P(O/A) 2.3HMM的绩构和类型 隐马尔可夫模型的结构主要有两种,一种是各态历经的,一种是从左至右的如图1所示.各态历经 HMM可以应用于说话人识别、语种辨识等场合而语音识别必须用从左至右的HMM23). HMM的米型主要有连续HMM和离散HMM两大类,主要区别在于参数B.离散IMM的参数组 B是失量量化器码矢的概率矩阵,连续HMM的参数组B是每个状态对应于一贯观察概率密度函 数 Q (c) 图1IMM的结构 a)各态历经HMM;(b)三转移HMM;(c)二转移HMM 3基于HMM的孤立词语音识别系统 下面是一个用HMM构成的孤立词识别系统的过程的简单描述 3.1基本思想 设欲识别的词表有v个词,为每个词设计一个HMM模型.先用Q( Vector Quantization,矢量量 种数据压缩技术)技术,设计一个尺寸为M的码本(M为观察符号数).然后假定每个词有K 遍训练数据得到最优的模型参数.与此同时,用最佳准则得到状态数为N的状态转移序列.最后,对实 际欲识别的语音信号用上面训练所得的模型进行评估,识别出吻合概率最大的那个词 3.2基本方法 孤立词语音识别必须解决以下间题:一是对词表中的每个词z建立一个HMM.即用训练集数据 估计参数A=(A,B,丌);二是对每一个要识别的词,首先经过特征提取到观察矢量序列,O={o1 02,…or}然而对每个模型λ,求P(O/A),1≤v≤V,最后选择参数模型的似然度最高的词作为识别结 维普资讯htp:/ ww cqvip. com 第6期 段红梅等:隐马尔可夫模型在语音识别中的应用 19 果,即v*= arg max P(O/λ) 模型参数选择 在进行HMM训练即参数估计之前,首先应确定模型的类型及选择相应的参数.对孤立词识别而 言,由于每个词的实序关系可以通过状态的先后关系来体现,通常都采用自左至右的模型确定了模型 的结构之后,就要确定模型内的状态数.根据语音信号的特点,在小字词表、孤立词识别时,HMM多采 用自左向右无跨越或有跨越模型.在若T宇的汉字实验中,状态数取6时,正识率为94%,状态数取4 或8时,正识率为92%,状态数取10时,正识率为91%;国外的研究结果也表明,10个英文数字(0~9) 识别实验中,状态数取6左右效果最好].事实上,英文数字多为单賁节,因此,从实验上看,语音识别时 HMM状态数并非越多越好 分段K均值算法 模型的训练是从一个初始模型出发的,先由初始模型对训练样本进行匹配计算和状态标注后,便可 佔计出一组新的模型参数,再用新模型对训练样本进行匹配计算和状态标注,再次佔计出更新的模型参 数,这个过程多次重复直至收敛,最终得到的模型就是一个优化的模型.这种算法是由K均值聚类算法 与分段状态相结合而来的,称为分段K均值算法.至于初始模型的产生及模型参数迭代优化过程中的 参数重估方法的描述,限于篇幅的原因,就不在此详细说明.有兴趣者,可春阅[31 3.3孤立语音识别系统框图 语声学分析 训练 短时参数提取 参考模式 语音输入预处 识别字词 模式识别 理器 宁词候选后处理器 超音段参数提取 图2孤立语音识别系统 无论何种方案,孤立词语音识别系统都可用图2的框图来表示.图中,语声学分析部分主要是抽取 语音特征信息.它们的载荷形式有时域的特征参数包括过零率、短时能量、基音周期等频域的有时 谱、短时线性预测系数、短时倒谱等.此外,这部分还应包括抽取音长、音调、谱相关性能量等超音段信 息.这两类信息还要进行压缩处理,以节省模式存储容量和识别运算量.模式识别部分是将输入的经压 缩的语音信息与模板中训练时预存的参考模式进行比较若参考模式是随机模型,则采用时间归正策略 HMM技术.参考模式部分存储着训练时得到的压缩过的语音特征参数模式识别的结果再经超音段信 息的选择,得出字词的识别候选者.后处理器主要是运用语言学知识对识别出来的候选的字或词进行最 后的判决(如汉语的声调知识的应用等) 4HMM的局限性及改进 HMM技术之所以在语音识别中应用较为成功,主要是它具有较强的对时间序列结构的建模能力 尽管如此,HMM仍然是有缺点和局限性的31 (i)对低层次的声学音素建模能力差,使声学上相似的词易混淆 (ⅱn)对高层次语音理解或语义建模能力差,使其仅能接受有限状态或概率文法等简单场合应用; (ii)一阶HMM偎设很难直接用模型述协同发音( coarticulation),因为HMM假设输出是相互 独立的,且依赖于当前状态; 翻j對: 维普资讯htp:/ ww cqvip. com 20 工科数学 第18卷 (iv)HMM需对状态的分布作先验假设,而这种假设不一定适于语音信号; (v)HMM识别系统难以用硬件实现 隐马尔可夫模型这些缺点或称局限性,本质原因在于语音信号及语音识别问的复杂性,人们为了 研究的方便才作了附加条件的假设.为了提高语音识别系统的性能,人们曾相继提出了MHMM ( Modified HMM)系统 MSIHMM系统(多级识别系统),使得系统识别的准确率不断提高 近年来,人工神经网络(简称ANN,或简称神经网络)技术以其非线性、自适应性、并行性、鲁棒性及 学习特性并且易于硬件实现等特点而受到人们的极大关注,并被广泛应用于语音识别领域.神经网络以 其独特的优点及其强的分类能力和输入—输出映射能力,使得研究利用ANN来弥补上面HMM的 缺陷,因此也成为一大热点 将ANN与IMM相结合构成混合网络,能允分应用ANN强的分类能力,同时保留HMM强的时 间序列建模能力.目前,在语音识别中应用的由HMM和ANN构成的四种混合网络是6): (i)用HMM实现MLP( Multi Lager Perceptron)分类器的时间规整处理; i)用MLP计算HMM的观察概率; (i)用MLP实现HMM的算法( Viterbi网); (iv)构造HMM网 实验结果表明,混合网的性能都优于单纯的HMM和ANN的性能,此外,混合网络易于硬件实 现.可见HMM与ANN构成的混合网络是更适丁语音识别的方法.总之,HMM技术在语音识别应用 中,已经深入、广泛且不断地发展.语音识别从基础意义上讲,仍然是一个尚未真正解决的问题,仍然需 要进行大量的、多角度的实验和探索,寻求改进实施语音识别系统总体性能的新途径 [参考文献 [1] Rabiner l R and Juang B H. An Introduction to Hidden Markov Model[J]. IEEE ASSP Magazine, Jan, 1986 4-16 [2]易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,1998 [3]陈永彬.语音信号处理[M].上海:上海交通大学出版社,1978 4]陈尚勤,罗承烈,杨雪.近代语音识别[M]成都:电子科技大学出版社,1979 5]张杰,黄志同,王晓兰.语音识別中隐马尔可夫模型状态数的选取原则及研究[].计算机工程与应用,2000,(1):67 [6]李苇营,易克初,胡征.神经网络与HMM构成的混合网络在语音识别中应用的研究[].电子学报,1994,22(10): 73-74 The Application of HMM in Speech Recognition DUAN Hong-mei, WANG Jun, MA liang-he, XU Ran (Air force logistics Institute, Xuzhou 221000) Abstract, The basic technology of HMM is some kind of successful method in dealing with speech recognition. It has a stronger ability to build a model of the time order This article introduces this basic technology and a speech recognition system on some isolated words. But there are some shortcomings in HMM, which lessens the ability of recognition. On this, this article briefly introduces some reformed HMM speech recognition systems and some popular way-the mix nct of HMM and ANN Key words: random process; HMM; speech recognition; ANN

...展开详情
试读 5P 马尔可夫模型在语音识别中的应用
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
关注 私信
上传资源赚钱or赚积分
最新推荐
马尔可夫模型在语音识别中的应用 35积分/C币 立即下载
1/5
马尔可夫模型在语音识别中的应用第1页

试读结束, 可继续读1页

35积分/C币 立即下载