评委一评分,签名及备注
队号:
1190
评委三评分,签名及备注
评委二评分,签名及备注
选题:
C
评委四评分,签名及备注
题目:手机语音识别技术的设计与实现
摘要
语音识别技术是一门新兴计算机智能技术。本文在参阅相关语音识别技术文
献及书籍的基础上,综述了当前语音技术的进展,进而重点研究了手机语音识别
技术的关键环节,提出了一种新的语音识别模型,并从实验仿真角度出发验证了
改进模型的优势。
首先,建立了语音识别系统模型,并对模型的各个关键环节可采用的方法进
行了的分析与比较,并选择现阶段较权威的方法进行重点研究,从理论研究与算
法实现两个方面进行了详细的论述。其次,将 BP 神经网络网络和遗传算法综合
起来应用于手机语音识别的研究中。文中详细论述了 BP 神经网络和遗传算法的
原理,MATLAB 实现及各自的优缺点,深入分析了用遗传算法改进 BP 神经网络
识别模型的优势,并用语音实验进行仿真,进一步验证了理论分析的正确性。通
过仿真实验建立了相应的语音识别系统,并将其与普通的 BP 网络语音识别系统
进行了比较分析,证明了该识别算法的高效性和方案的可行性。然后,考虑所建
模型的假设条件及各关键环节存在的缺陷,本文给出了基于手机语音识别用户的
用户手册指南,旨在让客户最有效地使用本文所建识别系统,减少识别故障或识
别错误率。
本文的完成的主要任务及创新点可以概括为以下四个方面:
1. 将改进的 BP 神经网络算法应用于手机语音识别技术,解决了传统 BP 网
络识别模型收敛速度慢,易陷入局部收敛的缺陷。较明显地提高了识别效率;
2. 全面考虑手机语音识别各环节的关键技术,建立参阅相当量的重要文献的
基础上,通过比较选择了权威的方案,并给出理论推导及实现方案。而不是单单
应用某成熟理论或者传统经验;
3. 建立语音实验仿真平台,通过实验数据及识别效率证明了本文模型的高效
性和正确性;
4. 总结了本文模型的不足,并给出了具体的尚待完善的环节及可以进一步发
展的方向。
关键字:手机语音识别 BP 神经网络 遗传算法 语音实验
手机语音识别技术的设计与实现
目 录
1.假设和符号说明 ............................................................................................................ 1
1.1 模型假设 ............................................................................................................ 1
1.2 符号说明 ............................................................................................................ 1
2.问题背景与分析 ............................................................................................................ 1
2.1 问题背景 ............................................................................................................ 1
2.2 语音识别技术研究现状及本文的研究思路 ........................................................... 2
2.3 问题重述与分析 .................................................................................................. 3
3.模型的理论准备 ............................................................................................................ 4
3.0 本节总论 ............................................................................................................ 4
3.1 模型前期准备 ..................................................................................................... 5
3.2 语音识别模块准备 ............................................................................................... 9
3.3 神经网络语音识别模型 ......................................................................................11
3.4 遗传算法 .......................................................................................................... 15
3.5 基于遗传算法优化的神经网络模型的建立 ......................................................... 16
3.6 用户规则制定 ................................................................................................... 17
4.模型建立及算法实现 ................................................................................................... 19
4.0 本节总论 .......................................................................................................... 19
4.1 模型识别前处理 ................................................................................................ 19
4.2 BP 神经网络识别 ............................................................................................... 25
4.3 基于遗传算法优化的 BP 神经网络识别 .............................................................. 28
4.4 模型改进前后对比 ............................................................................................ 30
5.模型总结与改进 .......................................................................................................... 31
5.1 模型总结 .......................................................................................................... 31
5.2 模型尚待改进的地方 ......................................................................................... 32
6.参考文献 ..................................................................................................................... 34
7.附 件 .......................................................................................................................... 36
7.1 部分程序代码 ................................................................................................... 36
7.2 语音单元端点检测图 ......................................................................................... 46
1
1.假设和符号说明
1.1 模型假设
假设 1:识别模型的处理对象为录制的一段语音,不考虑断句不考虑返回给
用户的形式,仅仅考虑语音内容识别的实现问题。
假设 2:语音实验过程,假设我们的同学发音完全正确,即为标准的普通话,
同时忽略录音仪器,录音环境噪声过大等的影响。
假设 3:为方便模型验证,仅使用手机语音常用的口令训练和测试模型。
假设 4:鉴于模型的简化,仅考虑特定人发音的识别,非特定人发音的识别
在本文中不做深入讨论。
1.2 符号说明
符号
符号含义
ARS
语音识别技术
MFCC
Mel倒谱系数
MLP
多层感知网络
BP
神经网络
GA
遗传算法
2.问题背景与分析
2.1 问题背景
语音识别技术(Automatic Speech Recognition,ASR)是一门起源于 20 世纪 50
年代的新兴计算机智能技术,其核心思想是让机器能够识别和理解人类口述语
言,并予以正确的响应或恰当的反馈,最终实现人机语言沟通的高智能化目标。
从语音识别技术的发展历程来看,早期的语音识别技术着眼于如何将人类口
述语言转化为可读、可存储的机器语言,即“语音辨识”领域。而经过专家学者们
的努力,语音识别的破解之法如傅立叶转换、倒频谱参数等已逐渐应用于该领域,
使语音辨识系统已达到一个可接受的程度,并且辨识度愈来愈高。随着计算机功
能、信号处理、软件编程等一系列高端技术领域的深入发展,目前语音识别技术
的研究重点已从最基本的“辨识”功能转向“人机交流”功能,即机器能够针对用户
的口述请求或命令做出正确的响应、反馈。例如移动终端上的火热应用——语音
对话机器人、语音助手;智能手机上的广泛应用——语音拨号、语音导航、“微
信”、娱乐小程序“小黄鸡”等等。更有研究人员在开发将语音识别技术应用于实
现手机解锁功能
[1]
。
从应用的范围来看,语音识别是一门涉及面很广的交叉学科,与计算机、通
信、语音语言学、数理统计、信号处理、神经心理学和人工智能等学科都有密切
的关系。语音识别的最大优势在于使得人机用户界面更加自然和容易使用。随看
计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需
2
要的语音识别系统实现成为可能。近二三十年来,语音识别在工业、军事、交通、
医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等
领域中有着越来越广泛的应用。
2.2 语音识别技术研究现状及本文的研究思路
语音识别技术具有强大的应用前景。试想一下,未来的公司会议不再需要人
工记录员;大学课堂老师不必再辛苦板书,学生也不必繁忙做笔记;电影后期制
作的配音人员和字幕人员也不必再摧残耳朵……很多事情都将因语音识别技术
的应用变得简单高效。而为了让人们能够享受到更多的诸如此类的语音识别技术
的便利性,很多学者和研究人员在这方面做出了贡献。
在语音识别的传统技术研究方面,房安栋等
[1]
研究了语音识别中一种说话人
的声纹识别,通过利用正交小波滤波器组来对信号进行预滤波,将基音周期参数
和Mel倒谱系数(MFCC)两者组合,得到新的声纹特征。Kajarekar
[2]
提出一种基于
手机应用的多项式支持向量机(SVM)方法,解决了手机上的语音识别功能。李曜
等
[3]
针对传统的隐含马尔可夫模型(HMM)在语音识别方面存在的缺陷,提出了一
种在识别的后处理阶段使用段长模型的方法,并应用在汉语识别系统上。田莎莎
等
[4]
提出一种改进的MFCC特征参数,即BMFCC特征参数的方法,并证明该方法
可以提高语音识别时的识别率和运算速度。
在语音识别的现实生活应用方面,Eklund等
[5]
通过调查在瑞典的电话语音识
别和语音合成技术的应用范围及人们的感受,探讨了电话语音功能的开发规模为
多大时才能得到最佳的使用效果。徐子豪等
[6]
通过研究语音识别技术和无线传感
网络,设计了一套能够通过远程语音遥控进行便捷控制的智能家居系统,并通过
测试证明该系统的识别率可以达到98%。Ayres等
[7]
通过比较手机、电脑上的语音
识别技术,并对特定的场景下的语音识别系统进行比对和分析,创建了语音识别
技术的语法扩展框架。苏征远等
[8]
设计了以ARM处理器为核心,Linux为操作系
统的嵌入式语音识别设备,并证明该语音识别设别具有通用性好、拓展能力强等
特点。郭超等
[9]
使用支持向量机作为分类算法,构建了低信噪比环境下的孤立词
非特定人语音识别系统,并证明该系统具有较好的识别率。
在语音识别技术的研究方面,Salmela等
[10]
通过将多层感知网络(MLP)和隐马
尔可夫模型相结合,创建了一种混合语音识别系统,并通过对网络的训练和测试
得到较好的识别效果。吴炜烨
[11]
以神经网络的语音识别应用为基础,提出一种
改进的BP神经网络结构,并通过参数比较证明改进后的神经网络具有更好的语
音识别效果。Howell等
[12]
设计了基于语音识别的移动电话服务系统,并通过使用
一个适当的空间隐喻提高可视化水平,使参与者更有效地在分层服务体系结构中
实现语音导航功能。宋清昆等
[13]
提出了一种基于改进遗传算法的小波神经网络
控制器,并研究证明此方法可以克服基本遗传算法收敛速度慢,容易陷入“早熟”
收敛,计算稳定性不好等一系列问题,进一步提高了小波神经网络控制器的性能。
宋亚男等
[14]
利用MATLAB软件编程工具,以凌阳SPCE061A为基础,结合机器人
语音识别的需求,实现了机器人语音识别系统演示实验和半开放实验。余华等
[15]
通过改进径向基神经网络,并将其运用于语音识别系统,从而证明改进型的神经
网络在针对非特定人的孤立词识别上效果很好。Linder等
[16]
以神经网络技术为基
础了,开发一个声学语音分析系统,并验证该系统可以作为筛选设备监控、记录
和诊断的专业化语音识别系统。周琍
[17]
以BP神经网路作为语音识别的基础,并
利用MATLAB封装友好便捷的图形界面,实现了较好的人机交互语音识别功能。
3
刘纪平
[18]
研究了遗传算法和神经网络相结合在语音识别应用中的设计,并通过
仿真实验建立了相关的语音识别系统。Melin等
[19]
提出了一种将遗传优化神经网
络的模块化与模糊响应进行集成的新方法,并验证了此方法可广泛用于生物基因
识别或语音识别等领域。
以这些前人的相关研究为基础,通过详细的比对分析,本文选取神经网络和
遗传优化算法相结合的方式,并利用 MATLAB 强大的语音处理功能,分析并建
立了手机语音识别模型系统。在考虑单音,句式等不同情形下的语音识别需求的
可能,从模型收敛速度,和识别率来论证所提模型的合理性。最后,文章运用仿
真实例,对该模型的识别率、正确率作出仿真评价,验证了改进后的 BP 神经网
络语音识别模型具有很高的可靠性。
2.3 问题重述与分析
2.3.1 问题重述
本文的研究重点是为手机运营商设计和构建一套语音识别模型(即语音机器
人系统)。即手机用户通过微信公共账号等形式将已录制的语音文件发送给客服
机器人,而客服机器人通过该语音识别模型可以正确识别用户的需求(例如查询
话费余额、查询套餐余量、查询最新的优惠活动等)。
为简化构建语音识别模型的过程,在以一段录制的语音作为一个识别单位,
不需要考虑断句,不需要考虑返回给用户的形式,只要求能够识别出语音内容的
前提下,依次解决以下三个问题:
问题 1:通过建立模型来说明语音识别技术的各个环节;
问题 2:根据已建立的语音识别模型为手机运营商制定一个可行的用户操作
规则;
问题 3:根据已制定的用户操作规则,以一个实际例子来验证“客服机器人”
语音识别模型的有效性和可行性,例如:查询话费功能的实现。
2.3.2 问题分析
根据应用程序开发理论,一个新程序的开发一般包括五个环节:需求分析
——可行性分析——框架设计——逻辑实现——测试调试。本文在“问题背景”
部分已详细陈述手机运营商的设计要求以及手机用户的实际需求,因此接下来进
入可行性分析环节,即分析语音识别模型在解决上述三个问题时所运用的理论、
技术知识以及实现难点。
问题 1 的分析
语音识别模型的构建是本文的核心。在构建模型前,首先需从逻辑上确定一
个完整的语音识别系统具体包括哪几个环节。
综合文献
[14][20][31]
,本文总结完整的语音识别系统的构建大致可以分为四部
分:
一是语音采集及预处理部分:通过采集环节将人类口述语言以波形文件的格
式储存在计算机的记录存储结构中;然后经过预处理,将已存储的语音波形文件
转化为随时间变化的语音特征序列,这个过程也称为语音特征提取,通过预处理
后的特征序列即可以体现原始语音信号的主要特征。
二是语音识别部分(即声学模型的匹配):声学模型是指体现不同语音单元特
征的统计分布参数模型。声学模型常采用包含状态转移的高斯混合模型来表示。
语音识别部分的任务是为已预处理的语音特征序列寻找最匹配的声学模型。