DSP:基于 DSP 的高速实时语音识别系统的设计
2008-06-14 11:00
实时语音识别系统中,由于语音的数据量大,运算复杂,对处理器性能提
出了很高的要求,适于采用高速 DSP 实现。虽然 DSP 提供了高速和灵活的硬
件设计,但是在实时处理系统中,还需结合 DSP 器件的结构及工作方式,针对
语音处理的特点,对软件进行反复优化,以缩短识别时间,满足实时的需求。
因此如 何对 DSP 进行优化编程,解决算法的复杂性和硬件存储容量及速度之
间的矛盾,成为实现系统性能的关键。本文基于 TMS320C6713 设计并实现
了高速实 时语音识别系统,在固定文本的说话人辨识的应用中效果显著。
1 语音识别的原理
语音识别的基本原理框图如图 1 所示。语音信号中含有丰富的信息,从中
提取对语音识别有用的信息的过程,就是特征提取,特征提取方法是整个语音
识 别系统的基础。语音识别的过程可以被看作足模式匹配的过程,模式匹配是
指根据一定的准则,使未知模式与模型库中的某一模型获得最佳匹配。
1.1 MFCC
语音识别中对特征参数的要求是:
(1) 能够有效地代表语音特征;
(2) 各阶参数之间有良好的独立性;
(3) 特征参数要计算方便,保证识别的实时实现。
系统使用目前最为常用的 MFCC(Mel FrequencyCepstral
Coe#cient,美尔频率倒谱系数)参数。
求取 MFCC 的主要步骤是:
(1) 给每一帧语音加窗做 FFT,取出幅度;
(2) 将幅度和滤波器组中每一个三角滤波器进行 Binning 运算;
(3) 求 log,换算成对数率;