1 案例背景
语音识别是一门覆盖面很广泛的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论及神经生物学等学科都有非常密切的关系"。通过语音信号处理和模式识别理论使得计算机自动识别和理解人类口述的语言,包括两种意义:一是将人类口述的语句逐句地进行识别并转换为文字;二是对口述语言所包括的需求和询问做出合理的分析,执行相关的命令,而不是仅仅转换为书面文字。本案例以语音识别为理论基础,通过与模式识别相结合的方式将其应用到信号灯图像的模拟控制领域,实现对指定语音信号进行自动识别并自动关联信号灯图像的效果,具有一定的使用价值。
2 理论基础
语音信号的端点检测是进行语音识别的一个基本步骤,它是特征训练和识别的基础。端点检测是指在语音信号中查找各种段落(如音素、音节、词素)的始点和终点的位置,并从语音信号中消除无声段,进而实现对语音有效信号段的截取。早期进行端点检测的主要依据是信号能量、振幅和过零率,但经常会出现误检测,效果并不明显。20世纪60年代日本学者Itakura提出了动态时间规整算法(Dynamic Time Warping, DTW) , 该算法的基本思想是把未知量均匀地延长或缩短,并达到与参考模式的长度一致的效果"。在这一过程中,未知语音段的时间轴要不均匀地变化或弯折,以使其特征与模型特征得到对应。因此,一个完整的基于统计的语音识别系统可大致分为以下步骤:
(1)语音信号预处理:
(2)语音信号特征提取;
(3)声学模型选择;
(4)模式匹配选择;
(5)语言模型选择:
(6)语言信息处理。
语音识别研究的第一步为选择识别单元,常用的语音识别单元有单词(句)、音节和音素三种,一般根据具体的研究任务来决定选择哪种识别单元。大部分中小词汇语音识别系统选择单词(句)作为识别单元,大词汇系统的模型库一般规模较大,训练模型步骤较多,模型匹配算法复杂度较高,选择单词(句)作为识别单元难以满足实时性要求。大部分汉语语音识别系统选择音节作为识别单元,其中,汉语是单音节结构的语言,英语是多音节结构的语言,汉语大约1300个音节,如果不考虑声调,则约有408个无调音节,待识别的音节数量相对较少。因此,中、大词汇量汉语语音识别系统一般选择以音节为识别
单元来进行系统设计。英语语音识别系统一般选择音素作为识别单元,中、大词汇量汉语语音识别系统也在越来越多地采用音素作为识别单元。汉语音节仅由声母和韵母构成,其中,零声母有22个,韵母有28个,且二者的声学特性相差很大。在实际应用中,为了提高易混淆音节的区分能力,通常把声母依后续韵母的不同而构成细化声母来进行处理。但是,由于协同发音的影响,音素单元往往具有不稳定的特点,所以如何获得稳定的音素单元依然有待于进一步研究。
选择合理的信号特征参数是语音识别的一个关键因素。为了提高对语音信号进行分析、处理的效率,需要提取特征参数,消除与语音识别无关的冗余信息,保留影响语音识别的重要信息,同时对语音信号进行压缩。因此,在特征参数提取的实际应用中,语音信号的压缩率一般介于10~100.此外,语音信号包含了大量不同种类的信息,需要综合考虑包括成本、性能、响应时间、计算量等在内的各方面因素来决定对哪些信息进行提取,以及选择哪种方式提取。非特定人语音识别系统为了保证一般性,往往侧重于提取反映语义的特征参数,尽量消除说话人的个人信息:特定人语音识别系统为了保证有效性,往往在提取反映语义的特征参数的同时,尽量也保留说话人的个人信息回。
LP(线性预测)分析技术属于特征参数提取技术,具有广泛的应用。许多成熟的语音识别应用系统都采用基于LP的技术来提取Mel倒谱参数作为特征。但LP模型作为一种纯数学模型具有局限性,没有考虑人类听觉系统对语音处理的特点。Mel倒谱参数和PLP(感知线性预测) 分析提取的感知线性预测倒谱, 应用了听觉感知方面的一些研究成果,在一定程度上模拟了人类听觉系统对语音处理的特点。实验证明,采用这种技术能在一定程度上提高语音识别系统的性能。根据目前的使用情况, Mel感知线性预测倒频谱参数充分考虑了人类发声与接收声音的特性并且具有良好的鲁棒性,因此已逐渐取代传统的线性预测编码倒频谱参数。此外,也有部分研究者尝试把小波分析技术应用于语音信号的特征提取,但其应用性能还具有一定的局限性,有待进一步研究。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
1、资源内容:基于Matlab语音识别信号灯图像模拟控制系统+GUI操作界面(源码+数据).rar 2、适用人群:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业或毕业设计,作为“参考资料”使用。 3、解压说明:本资源需要电脑端使用WinRAR、7zip等解压工具进行解压,没有解压工具的自行百度下载即可。 4、免责声明:本资源作为“参考资料”而不是“定制需求”不一定能够满足所有人的需求,需要有一定的基础能够看懂代码,能够自行调试代码并解决报错,能够自行添加功能修改代码。由于作者大厂工作较忙,不提供答疑服务,如不存在资源缺失问题概不负责,谢谢理解。
资源推荐
资源详情
资源评论
收起资源包目录
基于Matlab语音识别信号灯图像模拟控制系统+GUI操作界面(源码+数据).rar (263个子文件)
flac.exe 256KB
EmotionRec.fig 42KB
upolyhedron.m 44KB
psycest.m 27KB
modspect.m 25KB
spgrambw.m 25KB
dypsa.m 24KB
gaussmix.m 21KB
psycdigit.m 20KB
stdspectrum.m 19KB
xyzticksi.m 16KB
fxrapt.m 15KB
fxpefac.m 15KB
sphrharm.m 15KB
readwav.m 15KB
estnoisem.m 14KB
readsfs.m 14KB
filtbankm.m 13KB
readsph.m 13KB
writewav.m 12KB
ssubmmse.m 11KB
psycestu.m 11KB
activlev.m 11KB
vadsohn.m 10KB
specsub.m 10KB
Contents.m 10KB
melbankm.m 10KB
psychofunc.m 10KB
sigma.m 9KB
sapisynth.m 8KB
gammabank.m 8KB
windows.m 8KB
voicebox.m 7KB
gaussmixp.m 7KB
readaif.m 7KB
kmeanhar.m 7KB
EmotionRec.m 7KB
snrseg.m 6KB
gausprod.m 6KB
gaussmixd.m 6KB
windinfo.m 5KB
frq2bark.m 5KB
maxgauss.m 4KB
kmeans.m 4KB
readhtk.m 4KB
imagehomog.m 4KB
sigalign.m 4KB
fram2wav.m 4KB
writehtk.m 4KB
randvec.m 4KB
lpccovar.m 4KB
correlogram.m 4KB
melcepst.m 4KB
quadpeak.m 4KB
gmmlpdf.m 4KB
histndim.m 4KB
overlapadd.m 4KB
distisar.m 4KB
txalign.m 4KB
lpcconv.m 3KB
lpcauto.m 3KB
momfilt.m 3KB
findpeaks.m 3KB
distitar.m 3KB
entropy.m 3KB
importsii.m 3KB
distchar.m 3KB
figbolden.m 3KB
distispf.m 3KB
disteusq.m 3KB
distitpf.m 2KB
rotqr2eu.m 2KB
specsubm.m 2KB
filterbank.m 2KB
lpcifilt.m 2KB
maxfilt.m 2KB
readcnx.m 2KB
distchpf.m 2KB
glotlf.m 2KB
zoomfft.m 2KB
irfft.m 2KB
bitsprec.m 2KB
ldatrace.m 2KB
lpcrf2ar.m 2KB
teager.m 2KB
bark2frq.m 2KB
nearnonz.m 2KB
rotro2eu.m 2KB
unixwhich.m 2KB
readau.m 2KB
schmitt.m 2KB
enframe.m 2KB
readflac.m 2KB
finishat.m 2KB
lpcar2am.m 2KB
rotro2qr.m 2KB
lpcar2fm.m 2KB
dlyapsq.m 2KB
erb2frq.m 2KB
soundspeed.m 2KB
共 263 条
- 1
- 2
- 3
资源评论
- 库拉湾的夜色2024-05-25资源中能够借鉴的内容很多,值得学习的地方也很多,大家一起进步!
- 2201_752927982024-05-29资源很赞,希望多一些这类资源。
Matlab仿真实验室
- 粉丝: 3w+
- 资源: 2404
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功