没有合适的资源?快使用搜索试试~ 我知道了~
人工智能-语音识别-基于DSP的非特定人孤立词语音识别系统的研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
14 浏览量
2022-06-28
00:12:05
上传
评论
收藏 1.11MB PDF 举报
人工智能-语音识别-基于DSP的非特定人孤立词语音识别系统的研究.pdf
资源推荐
资源详情
资源评论








ABSTRACT
Speech recognition technology involves phonetics, artificial intelligence, digital
signal processing technology, physiology, mathematical statistics, and other
interdisciplinary knowledge and it is the most convenient way of man-machine
communication. Recently, it is a major research focus that applying the speech
recognition to mobile devices, smart home and other areas. The problem we are
addressing in this paper is that of recognizing isolated word speech on DSP.
Firstly, we create the template library of speech automatically based on the
Cambridge HTK tool sets which is mainly used for speech recognition. The template
library has a simple training process and is free of expansion. Besides, the recognition
rate has improved as we can approach the optimal HMM parameters.
Then we study sampling, digitization, pre-emphasis processing algorithm,
feature extraction algorithm, endpoint detection algorithm, speech recognition
algorithm of the voice signal. To cater for the recognition rate will decline as we
cannot identify the beginning and ending points of the speech signal very well in a
noisy environment, an endpoint detection algorithm combined by automatically
adjusting thresholds algorithm and enhancing the zero-crossing rate algorithm is
utilized, and it is shown to perform with good precision on finding the start and end
points of voice signal, which is simulated by MATLAB. To enable high computing
speed and good real-time to be performed, we use the improved Mel cepstral
coefficients for characteristic parameters. Finally we have realized the HMM-based
non-specific speech recognition system successfully.
Lastly, we realize the non-specific isolated word speech recognition system
based on CCS which is the software development tool of DSP and
ICETEK-DM642-PCI platform which consists of TMS320DM642 processor core and
TLV320AIC23 audio codec.
The experiment results show that the recognition rate is up to 95% in this system.
KEY WORDS:Speech recognition, DSP, Endpoint detection, Mel Cepstrum parameters,
HMM
II

目 录
第一章 绪论..................................................................................................................1
1.1 引言..................................................................................................................1
1.1.1 国外语音识别领域现状........................................................................2
1.1.2 国内语音识别领域现状........................................................................2
1.2 语音识别系统存在的问题及困难..................................................................3
1.3 本文的组织结构和主要内容..........................................................................4
第二章 语音识别的基本理论的概述..........................................................................5
2.1 语音识别系统的组成框架..............................................................................5
2.2 语音信号的预处理..........................................................................................5
2.2.1 语音信号的数字化................................................................................5
2.2.2 预加重处理............................................................................................6
2.2.3 防混叠滤波............................................................................................6
2.3 语音信号的加窗处理......................................................................................6
2.4 语音信号的端点检测......................................................................................7
2.4.1 短时能量分析........................................................................................8
2.4.2 短时平均过零率....................................................................................8
2.5 语音信号的特征参数分析..............................................................................9
2.5.1 线性预测倒谱参数LPCC......................................................................9
2.5.2 Mel倒谱系数MFCC .............................................................................10
2.6 语音识别的算法............................................................................................12
2.6.1 动态时间规整算法(DTW).............................................................12
2.6.2 隐马尔科夫模型(HMM)................................................................13
2.6.3 HTK介绍...............................................................................................19
2.7 本章小结........................................................................................................19
第三章 语音识别的算法研究....................................................................................20
3.1 预处理参数的选取与仿真............................................................................20
3.2 语音信号的加窗............................................................................................21
3.3 语音信号的端点检测及其改进....................................................................24
3.4 语音信号的MFCC特征参数研究.................................................................27
3.4.1 MFCC参数的仿真................................................................................27
III

3.4.2 MFCC参数的改进................................................................................28
3.5 HMM算法的仿真及建立语音模板...............................................................29
3.5.1 自定义HMM语音模板........................................................................29
3.5.2 HMM模型算法分析与仿真.................................................................31
3.6 本章小结........................................................................................................34
第四章 语音识别系统的硬件介绍............................................................................35
4.1 硬件平台概况................................................................................................35
4.2 主处理器(TMS320DM642)的介绍 .........................................................36
4.3 存储模块及其配置........................................................................................38
4.3.1 音频模块..............................................................................................39
4.4 本章小结........................................................................................................40
第五章 系统的集成实现............................................................................................41
5.1 CCS开发环境 .................................................................................................41
5.2 音频采集功能的实现及存储空间的分配....................................................43
5.3 系统工程概况................................................................................................46
5.4 本章小结........................................................................................................47
第六章 总结与展望....................................................................................................49
6.1 本文工作总结................................................................................................49
6.2 系统展望........................................................................................................49
参考文献......................................................................................................................51
发表论文和参加科研情况说明..................................................................................54
致 谢......................................................................................................................55
IV

第一章 绪论
第一章 绪论
1.1 引言
语音识别技术是通过一定的技术手段让机器明白和理解语义的内容,把它
们转化成控制命令或文本的高技术手段。语音识别技术使自然人和机器交流的
天方夜谭变成了可能
[1]
。通过语音来与机器进行交流,较之传统的触摸,手动
控制等,给人们带来了极大的方便,因此越来越多的人投入到语音识别的研
究,使之在越来越多的领域得到了极其广泛的使用,其中包括智能家电、车载设
备、工业控制等等领域和行业。
与此同时,DSP 技术的快速发展和相关性能的不断完善,为在 DSP 上实现
语音识别的相关算法成为现实,并且和在 PC 机上语音识别系统的实现进行比
较,在时间效率上某些情况下更占优势。然而基于 DSP 的语音识别系统在功
耗、费用、实用性等方面有 PC 机无法比拟的优势。本文使用 TI 公司的
DM642DSP 对非特定人,小词汇量语音识别问题进行研究。
语音识别系统因为它的应用范围不同,对它最终所能达到的性能要求不同,
还有我们所站角度不同那么就会产生多种不同的设计方案,自然而然的也使得
其分类的方法而有所不同
[2]
。以下为常见的几种不同角度的分类方法:
(1) 按照说话人不同的说话方式来分类。根据他们所说内容的长度可以分为
孤立词的语音识别系统
[3]
,更进一步是连续词的语音识别,最终是连续语音识别。
平时我们在说话的时候可以连续不间断的发音,除非在文字需要加标点符号的地
方或是句尾间断。但在语音识别系统中,说话者必须按一定要求发音,否则就不
能正确的进行识别。把说话人每次只说一个命令词的语音识别称为孤立词语音识
别,这些命令词在词汇表中都被当作一个独立词条
[4]
。所以,可以用来实现简单
的家用电器控制。能够对由十个数字(0~9)组成的有多位的数字进行识别或把
一些指令词联合起来进行识别,这样的系统称为连续词语音识别。识别难度最大
的最复杂的是连续语音识别,这样的语音识别系统要求能够识别说话人以正常说
话方式所说的语音
[5]
。
(2) 按是否针对特定的人语音识别可以分为特定人(Speaker Dependent)语音
识别和非特定人(Speaker Independent)语音识别。其中只用于一个使用者的识别,
称为特定人语音识别,它的识别率一般较高
[6]
。而可以满足能够用于不同的使用
1

第一章 绪论
者的语音识别称为非特定人语音识别,它对比于特定人的系统具有更大优势,更
具实用性但是问题是它的识别难度也在增加,提高它的识别率需要做更多的工
作。
(3) 能够识别的词汇量的数目也是语音识别划分的一个标准。按能够识别词
汇量的大小显然我们可以将其划分为小词汇量的语音识别、中词汇量和大词汇量
语音识别。很明显,要识别的词汇量越大,当然要求也就越高,随之而来的它的
成本自然也会随之提高
[7]
。
1.1.1 国外语音识别领域现状
有关语音识别技术的国外最早研究起始于上个世纪 50 年代,而在这一时期
的研究内容主要只是关于语音学的一些基本概念和原理。在 1952 年,世界上第
一个能识别 10 个英文数字发音的语音识别系统即Audry系统
[8]
,由美国贝尔实验
室研究所Davis等人成功的实现了。1960 年第一个计算机语音识别系统由英国的
Denes等人成功的实现了。
到了 70 年代语音识别在以下方面取得了实质性的进展如:小词汇量、孤立
词等。接着到了 80 年代以后,词汇量比较大、非特定人的连续语音识别研究成
为了重点。在这一阶段,最大的改变是思路上的改变,基于统计模型(HMM)的
技术思路被提出来,再次将神经网络技术引入到语音识别问题中,这就改变了原
来基于标准模板匹配的思路。
在 90 年代,虽然在语音识别的系统研究的框架方面没有什么突出的进步。
但是,语音识别的实用化研究却取得了很大进展
[9]
。它开始从实验室走出来,走
到实际应用中,很多很有影响力的公司针对语音识别都推出了自己的系统。在苹
果的iOS系统中内建一款的人工智能的助理软件Siri。使用该软件用户可以通过正
常的说话与手机进行对话,它能够完成很多服务功能,比如说搜寻资料、查询通
讯录、设定闹铃等许多服务。更重要的是它还具有自适应学习的能力,能够不断
学习新的语音和语调,能够提供对话式的应答。IBM公司推出了Via Voice,微软
在其WINDOW7 操作系统中也自带语音识别功能
[10]
。
1.1.2 国内语音识别领域现状
中国的语音识别研究起始于 1958 年由中国科学院声学所利用电子管电路识
别 10 个元音。直至 1973 年才由中国科学院声学所开始计算机语音识别。受到硬
件条件和技术水平的约束,我国的语音识别研究工作一直发展的相对比较缓慢。
进入 80 年代以后,随着计算机应用技术在中国逐渐普及和应用以及数字信号技
术的进一步发展,,还有在此时国际上语音识别技术经过多年的沉寂再次成为一
2
剩余57页未读,继续阅读
资源评论


programhh
- 粉丝: 7
- 资源: 3838
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制
