2
一、设计任务书
1.1 设计任务
(1)从 DSP 实验板的 Mic- in 通道输入待识别的语音信号。
(2)采集标准语音信号,提取语音特征参数,形成标准模式库。
(3)输入语音信号进行测试,识别结果在 CCS 的输出窗口打印输出。
1.2 设计方法
首先利用 DSP 对语音信号进行分析,提取语音的特征参数,形成“模板”。语音识别系
统对特征参量的提取可采用 FFT 算法。语音识别和说话人识别中的 LPC 倒谱和 MEL 倒谱,
都与语音的频谱包络密切相关,不同的参数表示不同的频谱包络。识别时,对其进行特征参
数的分析,识别参数可以选择平均能量、过零数或平均过零数、频谱、倒谱、线性预测系数,
音长,音调,声调等超音段信息函数。最后将语音参数和模板进行比较,从而实现语音的识
别。
二、设计方案、算法原理说明
2.1 语音识别概述
语音技术,包括语音识别、语音合成、关键词检出、说话人识别与确认、口语对话系统
等,是现代人机交互的重要方式之一,具有广泛的应用前景。其中语音识别技术,尤其是连
3
续语音识别技术,是最基础、最重要的部分,而且已经逐步走向成熟与实用。
语音识别(Speech Recognition)是指让机器听懂人说的话,即在各种情况下,准确的识
别语音的内容,从而根据其信息,执行人的各种意图或执行特定的任务,其最终目标是实现
人与机器进行自然语言通信。利用 DSP 可以对语音信号进行实时采集、提取语音特征向量、
进行语音识别。语音识别系统对语音特征参量的提取可以采用 FFT 等算法,不同的参数表
示不同的频谱包络。
利用 DSP 技术来实现语音识别其实就是要利用 DSP 处理器强大的数据处理功能对表
征语音的各种形式的信息进行处理和分析,以对语音进行描述、辨认、分类和解释。无论是
早期的孤立词识别系统还是当代的连续语音和非特定人识别系统,它们的系统基本结构框图
都可以用下图来进行简单描述。其主要过程包括语音信号的预处理(端点检测等)、特征提
取、建立参考模板库、相似性度量和识别决策等几个功能模块。
预处理 特征提取
测度估计
模板库
识别决策
语音
输入
识别
训练
参考
模板
识别
结果
从图中可以看出语音识别系统的本质就是一种模式识别系统,它也包括特征提取、模式
匹配、参考模式库等基本单元。由于语音信号是一种典型的非平稳信号,加之呼吸气流、外
部噪音、电流干扰等使得语音信号不能直接用于提取特征,而要进行前期的预处理。预处理
过程包括预滤波、采样和量化、分帧、加窗、预加重、端点检测等。经过预处理的语音数据
就可以进行特征参数提取。在训练阶段,将特征参数进行一定的处理之后,为每个词条得到
一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音参数,生成测试
模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。后续的处理过程还
可能包括更高层次的词法、句法和文法处理等,从而最终将输入的语音信号转变成文本或命
令。
语音信号的预处理模块一般包括预滤波、采样和量化、分帧、加窗、预加重、端点检测
等。在不同的系统中对各子模块会有不同的要求,如在嵌入式语音识别系统中一般要求有防
4
混叠滤波电路、A/D 转换电路和采样滤波电路等,而在计算机上实验时则可由音频采集卡完
成,无需实验者亲自动手。
2.2 硬件构成
在本次实验中,我们用到的实验板是 SEED-VC5502 DSK,它采用的语音处理模块是 TI
公司的 TMS320VC5502,其主要特点包括:采用改进的哈佛结构,内部独立总线:12 组;
程序地址总线(PAB):1 组,24 位;程序数据总线(PB):1 组,32 位;数据读地址总线
(BAB、CAB、DAB):3 组,24 位;数据读总线(BB、CB、DB):3 组,16 位;数据写
地址总线(EAB、FAB):2 组,24 位;数据写总线(EB、FB):2 组,16 位。
BJTU-DSP5502 实验板主要包括:
DSP 芯片 1 枚(U1):TMS320VC5502@300MHz
SDRAM 1 枚(U5):2M×32bit(8Mbytes) HY57V643220CT
FLASH 1 枚(U4):256K×16bit(512Kbytes) SST39VF400A-70
CPLD 1 枚(U2):CY37064VP100
通信接口 3 个:仿真器 JTAG 接口(J1)、连接到 PC 机 USB 接口(J4)和 UART 接口(J2)
信号采集和输出端口:立体音输入接口 line-in(J5,直接接电脑的语音输出端口)/麦克风
输入接口(J7)/耳机音频输出接口(J6)
扩展板接口(J9,J10)
5
2.3 语音识别算法软件实现
系统软件流程如下图所示。
系统首先进行端点检测,检测的方法是采用短时能量和短时过零率相结合的方法,如果
检测到语音,则对有效的语音信息进行特征参数的提取,然后读取参考模板数据到片内存储
器,对每一个参考模板进行模式匹配,寻找距离最短的模式作为识别结果。
2.3.1 端点检测
端点检测是语音识别系统中至关重要的一步,其算法的优劣在某种程度上也直接决定了
整个语音识别系统的成败。作为一个完整的语音识别系统,其最终实现及使用的效果不仅仅
取决于识别的算法,许多相关因素都直接影响着应用系统的成功与否。
端点检测的目的就是在复杂的应用环境下的信号流中分辨出语音信号和非语音信号,并
确定语音信号的开始及结束。好的端点检测方法能改变语音识别软件存在的检测效果不理想、