汉语连续语音识别及其在移动机器人导航中的应用.doc资源-CSDN文库

版权申诉

71 浏览量 2023-07-12 21:50:11 上传评论收藏 1.68MB DOC 举报

资源推荐

资源详情

资源评论

摘要

汉语连续语音识别的研究已经进行了十多年，取得了一定的成果，但仍然有许多重大

的技术问题亟待解决。首先，声学模型的鲁棒性和准确性有待进一步提高，需要深入研究

语境相关的声学建模，特别是汉语三音子模型；其次，当训练和识别的环境由于信道和背

景噪声的不同或者说话人自身原因而导致系统识别率下降，需要我们深入研究自适应的方

法；最后，我们还需要研究技术的可移植性，即如何将识别结果二次利用，以期加快新领

域的研究速度。本文的主要研究工作围绕这些关键技术问题展开。

首先，研究了基于决策树的三音子建模技术。针对汉语语音识别，我们研究了决策树

建模中必须解决的几个主要问题，包括汉语基本建模单元的选择、问题集的设计原则、决

策树建模复杂度的优化。在建模单元的选择中，本文在比较以往汉语语音识别中用到的建

模单元的基础上，提出了新的建模方法，该方法使用将六个零声母附加到标准声韵母序列

的新的声韵母集合作为识别基元，并根据这种识别基元结合语音学和语言学的先验知识设

计了问题集，利用基于决策树的状态共享策略建立上下文相关三元声韵母模型。在用基于

HTK工具构建的识别系统上进行实验，结果表明，新的声韵母基元与标准声韵母相比，

识别性能有了很大提高。

其次，在说话人自适应模块中比较了最大后验概率（MAP）算法和最大似然线性回

归（MLLR）算法各自的优缺点，提出一种优化的自适应方法。这种方法综合了MAP的渐

进性和MLLR的快速性，在语音识别系统运行过程中逐渐调整系统参数，不断使用新的数

据来自适应。经实验论证表明，优化的自适应算法性能较之以往的自适应算法识别效果更

好。

最后，通过使用ATK工具，在Microsoft Visual Studio.NET环境下编写应用程序，将识

别的结果存储在一个变量中，继而用识别结果来导航一个移动机器人的行走。导航实验证

明，本文的语音识别系统应用是成功的，并且识别率可以达到85％以上。

关键词：汉语连续语音识别；声学模型；HTK；说话人自适应；ATK；移动机器人导航

Title: RESEACH ON MADARIN CONTINUOUS SPEECH RECOGNITION

AND APPLICATION IN MOBILE ROBOTS WITH IT

Major: Machinery Electronic Engineering

Name: Ma Xiao Signature:

Supervisor: Prof. Weiping Fu Signature:

ABSTRACT

Mandarin continuous speech recognition has been done for more than 10 years. Although

some achievements have been obtained, many significant and difficult problems are not yet

solved. Firstly, the context-dependent acoustic modeling must be paid to more attention and

efforts to further improve its robustness and accuracy, especially to Mandarin triphone

modeling. Secondly, because of the different channel and yawp or speaker’s reasons, system

recognition rate was depressed. Then it needs us to lucubrate on the research of adaptation.

Finally, we also need study the portability of the technologies to shorten the cost of time with

the research in new areas. My thesis is mainly to solve the above problems.

Firstly, we study the context effects on Mandarin speech recognition and the decision tree

based triphone acoustic modeling. We discuss our faced problems in the decision tree based

Mandarin triphone modeling, including the selection of Mandarin base phone units, the

criterion to design the context-related questions, and the complexity optimization on decision

tree. The thesis advance new base phone units which add 6 initial/ final to standard initial/ final

sets. The experiment of recognition system on HTK results show that the performance of new

system is improved so much.

The thesis compares Maximum A Posteriority algorithm with Maximum Likelyhood

Linear Regression algorithm in speaker adaptation module and advances a better method which

combines the stringendo MAP and fast MLLR, and adapt with new data on real time. By the

results of experiment, the optimized adaptation algorithm is better than old ones.

Finally, write a application under Microsoft Visual Studio.NET by using ATK toolkit,

then save the recognizing results to a variable which used to control the thread direction for a

robot. Experimentation of the navigation system make out that this recognition system is

successful and recognizing rate reach 85%.

Key words: Mandarin continuous speech recognition ； acoustics model ； HTK ； speaker

adaptation；ATK；navigation of mobile robots

1 绪论 ...........................................................................................................................................1

1.1 研究背景及意义 .............................................................................................................1

1.1.1 语音识别概念的提出..........................................................................................1

1.1.2 语音识别研究的历史和现状..............................................................................2

1.2 语音识别关键技术的最新研究 .....................................................................................4

1.3 本文主要研究内容及论文安排 .....................................................................................5

2 汉语连续语音识别的基本原理 ...............................................................................................6

2.1 隐马尔可夫模型 .............................................................................................................6

2.1.1 隐马尔可夫的基本概念......................................................................................6

2.2.2 隐马尔可夫模型的三个基本问题......................................................................8

2.2 声学模型建模基元 .......................................................................................................15

2.3 搜索算法 .......................................................................................................................16

2.4 本章小结 .......................................................................................................................16

3 汉语连续语音识别系统的建立 .............................................................................................18

3.1 系统目标 .......................................................................................................................18

3.2 识别系统框架 ...............................................................................................................18

3.3 前期处理 .......................................................................................................................19

3.3.1 建立语料库........................................................................................................19

3.3.2 语音信号预处理................................................................................................20

3.3.3 语音特征参数提取............................................................................................22

3.4 语境相关的声学建模 ...................................................................................................23

3.4.1 汉语连续语音识别声学模型基元的选择和优化............................................23

3.4.2 基于决策树的声学建模技术............................................................................25

3.4.3 声学模型的复杂度的优化................................................................................29

3.5 语言模型 .......................................................................................................................30

3.6 解码算法 .......................................................................................................................31

3.6.1 数据准备............................................................................................................31

3.6.2 搜索算法............................................................................................................32

3.7 说话人自适应 ...............................................................................................................35

3.8 本章小结 .......................................................................................................................35

4 汉语连续语音识别系统自适应的优化算法 .........................................................................37

4.1 最大后验概率算法 .......................................................................................................37

4.2 最大似然线性回归算法 ...............................................................................................39

4.3 优化的自适应方法 .......................................................................................................41

4.4 实验 ...............................................................................................................................42

4.5 小结 ...............................................................................................................................43

5 移动机器人汉语连续语音导航实验 .....................................................................................44

5.1 系统实验平台 ...............................................................................................................44

5.1.1 HTK 简介...........................................................................................................44

5.1.2 实验步骤............................................................................................................47

5.1.3 接口程序的实现................................................................................................48

5.2 导航实验 .......................................................................................................................49

6 结束语 .....................................................................................................................................51

6.1 本文的研究成果及创新 ...............................................................................................51

6.2 工作展望 .......................................................................................................................51

致谢 .........................................................................................................................................54

参考文献 .....................................................................................................................................55

附录 1 有关声韵母建模的问题集 ............................................................................................58

附录 2 语料库语句内容及对应的导航命令 ............................................................................61

攻读硕士期间发表的论文 .........................................................................................................62

1 绪论

大家可能都看过《未来战士》系列电影，电影中所描述的机器人可以跟我们人类像朋

友一样进行自由交谈，也像我们一样有思维，能学习，甚至有喜怒哀乐。当然，这系列的

电影被称为科幻电影，那么在现实生活中，这有可能成为我们身边发生的真事吗？

从科学的角度来讲，人和机器之间的交流是一门涉及面很广的交叉学科，与计算机通

信、语音信号处理、自动语音识别、自然声学理解以及神经生理学和人工智能都有着密切

的关系。计算机技术、模式识别、信号处理和声学技术的发展，以及通讯和因特网把相距

万里的人们紧密联系在一起，我们进入了前所未有的信息社会，也为语音识别这一领域的

发展提供了契机。然而，我们和计算机的沟通仍处在比较初级的阶段，依然需要依靠键盘、

鼠标等辅助设备和它交流，而不是用我们灵活掌握的语言。解决这个问题，就需要依靠语

音识别技术和自然语言理解技术。经过多年的努力研究，终于有了一些成果，在一定范围

内计算机已经可以理解我们的语言，能用简单的语句与我们交流。

在本章中，我们主要讨论语音识别基本概念、目前的发展状况以及存在的问题，提出

本文要研究的主要内容等。

1.1 研究背景及意义

1.1.1 语音识别概念的提出

语言是人类特有的功能，是相互传递信息最重要也是最基本的手段。而计算机分析语

音信号的目的是为了方便有效的提取并表示语音信号所携带的信息，这种方法所需要的准

确度是由语音中特定的信息决定的。根据所分析参数的类型，语音信号分析可以分为时域

和频域以及倒谱域处理技术。从语音信号的时域或者频域波形中，人们通过计算机试图分

析出这段信号所表达的含义和措辞，情感或者情绪信息，以及说话人的语言种类等等。

语音信号所传达的信息丰富，通常我们定义的语音识别是指计算机将人类的语音信号

“翻译”成表达相应语言的文字序列。这里的“翻译”是指在一个有限的集合里面确定待识别

目标，也就是事先已经预知所有可能性选择，在这些可能性选择中找出一个最优组合。

语音识别离我们如此之近，几乎任何人都可以从自己的体验对一个语音识别系统的性

能做出直观的评价，即使是初次接触它也不难提出朴素的语音识别方案。直观的想法，可

以比较两个语音，例如测试语音和参考语音的时域波形的相关度来实现。其实，从研究的

角度来说，语音识别任务的基本要素包括

【1】

：如何选取语音识别的特征；如何从语音信

息中去除无关紧要的冗余信息而提取出有价值的信息；采用什么样的算法来识别；怎样评

判语音识别的有效性和正确率等等。一个成功的语音识别系统，需要考虑语音特征参数的

有效性和适应性、算法的复杂度、各层知识的构建、系统的可移植性和扩展性等各方面的

剩余65页未读，继续阅读

评论收藏

内容反馈

版权申诉

omyligaga

粉丝: 54
资源: 2万+

汉语连续语音识别及其在移动机器人导航中的应用.doc

基于语音识别技术的移动机器人控制系统研发.pdf

基于模糊控制的移动机器人导航系统设计.doc

基于视觉的运动目标跟踪算法及其在移动机器人中的应用.pptx

机器人技术及其应用.doc

传感器在工业机器人中的应用.doc

工业机器人发展及其应用.doc

人工智能技术在足球机器人中的应用.doc

基于语音识别的导盲机器人小车模型设计.doc

FANUC机器人机器人视觉成像应用.doc

传感器课程设计传感器在机器人中的应用.doc

增强学习及其在移动机器人导航与控制中的应用研究

模糊控制移动机器人文献综述doc.doc

工业机器人技术及应用教案5-搬运机器人及其操作应用.doc

视觉里程计在移动机器人中的应用doc.doc

机器人技术及应用.doc

工业机器人技术及应用(教案)5-搬运机器人及其操作应用.doc

基于移动机器人技术的研究.doc

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

第十九届研电赛-技术论文模板

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

1.txt

学术海报模板+论文科研+研究生

北森能力测评题库.zip

最新资源

李飞飞自传我看见的世界 The World I see