没有合适的资源?快使用搜索试试~ 我知道了~
汉语连续语音识别及其在移动机器人导航中的应用.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 71 浏览量
2023-07-12
21:50:11
上传
评论
收藏 1.68MB DOC 举报
温馨提示
试读
66页
汉语连续语音识别及其在移动机器人导航中的应用.doc
资源推荐
资源详情
资源评论
摘 要
汉语连续语音识别的研究已经进行了十多年,取得了一定的成果,但仍然有许多重大
的技术问题亟待解决。首先,声学模型的鲁棒性和准确性有待进一步提高,需要深入研究
语境相关的声学建模,特别是汉语三音子模型;其次,当训练和识别的环境由于信道和背
景噪声的不同或者说话人自身原因而导致系统识别率下降,需要我们深入研究自适应的方
法;最后,我们还需要研究技术的可移植性,即如何将识别结果二次利用,以期加快新领
域的研究速度。本文的主要研究工作围绕这些关键技术问题展开。
首先,研究了基于决策树的三音子建模技术。针对汉语语音识别,我们研究了决策树
建模中必须解决的几个主要问题,包括汉语基本建模单元的选择、问题集的设计原则、决
策树建模复杂度的优化。在建模单元的选择中,本文在比较以往汉语语音识别中用到的建
模单元的基础上,提出了新的建模方法,该方法使用将六个零声母附加到标准声韵母序列
的新的声韵母集合作为识别基元,并根据这种识别基元结合语音学和语言学的先验知识设
计了问题集,利用基于决策树的状态共享策略建立上下文相关三元声韵母模型。在用基于
HTK工具构建的识别系统上进行实验,结果表明,新的声韵母基元与标准声韵母相比,
识别性能有了很大提高。
其次,在说话人自适应模块中比较了最大后验概率(MAP)算法和最大似然线性回
归(MLLR)算法各自的优缺点,提出一种优化的自适应方法。这种方法综合了MAP的渐
进性和MLLR的快速性,在语音识别系统运行过程中逐渐调整系统参数,不断使用新的数
据来自适应。经实验论证表明,优化的自适应算法性能较之以往的自适应算法识别效果更
好。
最后,通过使用ATK工具,在Microsoft Visual Studio.NET环境下编写应用程序,将识
别的结果存储在一个变量中,继而用识别结果来导航一个移动机器人的行走。导航实验证
明,本文的语音识别系统应用是成功的,并且识别率可以达到85%以上。
关键词:汉语连续语音识别;声学模型;HTK;说话人自适应;ATK;移动机器人导航
Title: RESEACH ON MADARIN CONTINUOUS SPEECH RECOGNITION
AND APPLICATION IN MOBILE ROBOTS WITH IT
Major: Machinery Electronic Engineering
Name: Ma Xiao Signature:
Supervisor: Prof. Weiping Fu Signature:
ABSTRACT
Mandarin continuous speech recognition has been done for more than 10 years. Although
some achievements have been obtained, many significant and difficult problems are not yet
solved. Firstly, the context-dependent acoustic modeling must be paid to more attention and
efforts to further improve its robustness and accuracy, especially to Mandarin triphone
modeling. Secondly, because of the different channel and yawp or speaker’s reasons, system
recognition rate was depressed. Then it needs us to lucubrate on the research of adaptation.
Finally, we also need study the portability of the technologies to shorten the cost of time with
the research in new areas. My thesis is mainly to solve the above problems.
Firstly, we study the context effects on Mandarin speech recognition and the decision tree
based triphone acoustic modeling. We discuss our faced problems in the decision tree based
Mandarin triphone modeling, including the selection of Mandarin base phone units, the
criterion to design the context-related questions, and the complexity optimization on decision
tree. The thesis advance new base phone units which add 6 initial/ final to standard initial/ final
sets. The experiment of recognition system on HTK results show that the performance of new
system is improved so much.
The thesis compares Maximum A Posteriority algorithm with Maximum Likelyhood
Linear Regression algorithm in speaker adaptation module and advances a better method which
combines the stringendo MAP and fast MLLR, and adapt with new data on real time. By the
results of experiment, the optimized adaptation algorithm is better than old ones.
Finally, write a application under Microsoft Visual Studio.NET by using ATK toolkit,
then save the recognizing results to a variable which used to control the thread direction for a
robot. Experimentation of the navigation system make out that this recognition system is
successful and recognizing rate reach 85%.
Key words: Mandarin continuous speech recognition ; acoustics model ; HTK ; speaker
adaptation;ATK;navigation of mobile robots
目 录
1 绪论 ...........................................................................................................................................1
1.1 研究背景及意义 .............................................................................................................1
1.1.1 语音识别概念的提出..........................................................................................1
1.1.2 语音识别研究的历史和现状..............................................................................2
1.2 语音识别关键技术的最新研究 .....................................................................................4
1.3 本文主要研究内容及论文安排 .....................................................................................5
2 汉语连续语音识别的基本原理 ...............................................................................................6
2.1 隐马尔可夫模型 .............................................................................................................6
2.1.1 隐马尔可夫的基本概念......................................................................................6
2.2.2 隐马尔可夫模型的三个基本问题......................................................................8
2.2 声学模型建模基元 .......................................................................................................15
2.3 搜索算法 .......................................................................................................................16
2.4 本章小结 .......................................................................................................................16
3 汉语连续语音识别系统的建立 .............................................................................................18
3.1 系统目标 .......................................................................................................................18
3.2 识别系统框架 ...............................................................................................................18
3.3 前期处理 .......................................................................................................................19
3.3.1 建立语料库........................................................................................................19
3.3.2 语音信号预处理................................................................................................20
3.3.3 语音特征参数提取............................................................................................22
3.4 语境相关的声学建模 ...................................................................................................23
3.4.1 汉语连续语音识别声学模型基元的选择和优化............................................23
3.4.2 基于决策树的声学建模技术............................................................................25
3.4.3 声学模型的复杂度的优化................................................................................29
3.5 语言模型 .......................................................................................................................30
3.6 解码算法 .......................................................................................................................31
3.6.1 数据准备............................................................................................................31
3.6.2 搜索算法............................................................................................................32
3.7 说话人自适应 ...............................................................................................................35
3.8 本章小结 .......................................................................................................................35
4 汉语连续语音识别系统自适应的优化算法 .........................................................................37
4.1 最大后验概率算法 .......................................................................................................37
4.2 最大似然线性回归算法 ...............................................................................................39
4.3 优化的自适应方法 .......................................................................................................41
4.4 实验 ...............................................................................................................................42
4.5 小结 ...............................................................................................................................43
5 移动机器人汉语连续语音导航实验 .....................................................................................44
5.1 系统实验平台 ...............................................................................................................44
5.1.1 HTK 简介...........................................................................................................44
5.1.2 实验步骤............................................................................................................47
5.1.3 接口程序的实现................................................................................................48
5.2 导航实验 .......................................................................................................................49
6 结束语 .....................................................................................................................................51
6.1 本文的研究成果及创新 ...............................................................................................51
6.2 工作展望 .......................................................................................................................51
致 谢 .........................................................................................................................................54
参考文献 .....................................................................................................................................55
附录 1 有关声韵母建模的问题集 ............................................................................................58
附录 2 语料库语句内容及对应的导航命令 ............................................................................61
攻读硕士期间发表的论文 .........................................................................................................62
1 绪论
大家可能都看过《未来战士》系列电影,电影中所描述的机器人可以跟我们人类像朋
友一样进行自由交谈,也像我们一样有思维,能学习,甚至有喜怒哀乐。当然,这系列的
电影被称为科幻电影,那么在现实生活中,这有可能成为我们身边发生的真事吗?
从科学的角度来讲,人和机器之间的交流是一门涉及面很广的交叉学科,与计算机通
信、语音信号处理、自动语音识别、自然声学理解以及神经生理学和人工智能都有着密切
的关系。计算机技术、模式识别、信号处理和声学技术的发展,以及通讯和因特网把相距
万里的人们紧密联系在一起,我们进入了前所未有的信息社会,也为语音识别这一领域的
发展提供了契机。然而,我们和计算机的沟通仍处在比较初级的阶段,依然需要依靠键盘、
鼠标等辅助设备和它交流,而不是用我们灵活掌握的语言。解决这个问题,就需要依靠语
音识别技术和自然语言理解技术。经过多年的努力研究,终于有了一些成果,在一定范围
内计算机已经可以理解我们的语言,能用简单的语句与我们交流。
在本章中,我们主要讨论语音识别基本概念、目前的发展状况以及存在的问题,提出
本文要研究的主要内容等。
1.1 研究背景及意义
1.1.1 语音识别概念的提出
语言是人类特有的功能,是相互传递信息最重要也是最基本的手段。而计算机分析语
音信号的目的是为了方便有效的提取并表示语音信号所携带的信息,这种方法所需要的准
确度是由语音中特定的信息决定的。根据所分析参数的类型,语音信号分析可以分为时域
和频域以及倒谱域处理技术。从语音信号的时域或者频域波形中,人们通过计算机试图分
析出这段信号所表达的含义和措辞,情感或者情绪信息,以及说话人的语言种类等等。
语音信号所传达的信息丰富,通常我们定义的语音识别是指计算机将人类的语音信号
“翻译”成表达相应语言的文字序列。这里的“翻译”是指在一个有限的集合里面确定待识别
目标,也就是事先已经预知所有可能性选择,在这些可能性选择中找出一个最优组合。
语音识别离我们如此之近,几乎任何人都可以从自己的体验对一个语音识别系统的性
能做出直观的评价,即使是初次接触它也不难提出朴素的语音识别方案。直观的想法,可
以比较两个语音,例如测试语音和参考语音的时域波形的相关度来实现。其实,从研究的
角度来说,语音识别任务的基本要素包括
【1】
:如何选取语音识别的特征;如何从语音信
息中去除无关紧要的冗余信息而提取出有价值的信息;采用什么样的算法来识别;怎样评
判语音识别的有效性和正确率等等。一个成功的语音识别系统,需要考虑语音特征参数的
有效性和适应性、算法的复杂度、各层知识的构建、系统的可移植性和扩展性等各方面的
剩余65页未读,继续阅读
资源评论
omyligaga
- 粉丝: 54
- 资源: 2万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功