基于倒谱特征的带噪语音端点检测
胡光锐 ,韦晓东
(
上海交通大学电子工程系 ,上海 200030
)
摘 要 : 在语音识别系统中产生错误识别的原因之一是端点检测有误差. 在高信噪比情况下 ,正确地确定语音
的端点并不困难. 然而 ,大多数实际的语音识别系统需工作在低信噪比情况下 ,一些常规的端点检测方法 ,例如基于能
量的端点检测方法在噪声环境下不能有效地工作. 本文利用倒谱特征来检测语音端点 ,提出了带噪语音端点检测的两
个算法 ,第一个算法利用倒谱距离代替短时能量作为判决的门限 ,第二个算法改进了基于隐马尔柯夫模型
(
HMM
)
的
语音检测以适应噪声的变化 ,实验结果表明本方法可得到高正确率的带噪语音端点检测.
关键词 : 语音识别 ; 端点检测 ; 倒谱距离
中图分类号 : TN912134 文献标识码 : A 文章编号 : 037222112
(
2000
)
1020095203
Endpoint Detection of Noisy Speech Based on Cep strum
HU Guang2rui ,WEI Xiao2dong
(
Department of Electronic Engineering , Shanghai Jiaotong University , Shanghai 200030 , China
)
Abstract : A major cause of errors in automatic speech recognition
(
ASR
)
systems is the inaccurate detection of the beginning
and ending boundaries of test and reference patterns. Accurate determination of endpoints of speech is not very difficult if the SNR is
high. Unfortunately ,most practical ASR systems must work with a small SNR ,and the conventional speech detection methods based on
some simple features such as energy cannot work well in noisy environments. In this paper ,cepstrum is used as the feature to detect the
voice activity. Two algorithmsfor endpoint detection of noisy speech signal are proposed. The first one takes the cepstral distance as the
decision thresholds instead of short2time energy. The second approach modified the HMM2based speech detector to make it adaptive to
the change of noise. The experiments show high accurate rates can be obtained.
Key words : speech recognition ;endpoint detection ;cepstral distance
1 引言
在语音识别系统中 ,正确确定语音段端点不仅减少计算
量 ,而且可以提高语音识别的正确率 ,语音端点检测也是语音
自适应增强算法与语音编码系统的重要部分. 语音端点检测
的传统方法通常采用语音的短时能量 ,这些方法在高信噪比
(
SNR
)
时具有良好的性能 ,而在低信噪比时性能很差. 然而 ,
语音处理系统通常工作在不同的噪声环境下 ,在语音处理系
统中采用的端点检测应当适应最不利的情况 ,在实际应用中
达到好的性能. 本文给出了两种基于倒谱的语音端点检测方
法. 由于倒谱距离对声环境具有更好的鲁棒性 ,因此第一种方
法采用倒谱距离来代替短时能量作为检测门限 ,第二种方法
是基于 HMM 的语音检测的改进方法 ,这种方法采用更新噪
声模型来改进算法性能. 实验结果表明 ,本文提出的算法具有
优越的性能.
2 语音端点检测方法
语音端点检测的算法步骤如下 :
(
1
)
语音信号分成相邻有重迭的语音段 ,称为语音帧;
(
2
)
对每一语音帧 ,选取一种特征向量;
(
3
)
采用一种判决准则 ,例如门限判定或模式分类 ,来检
测语音帧与非语音帧;
(
4
)
对上述结果进行后处理 ,得到语音的全部区间.
211 基于能量的端点检测
通常的语音端点检测方法采用测试信号的短时能量或短
时对数能量作为特征参数 , 并采 用门限 判定法来检测语
音
[1 ,2]
. 在这些方法中 ,当测试信号帧的短时能量超过噪声能
量门限并持续一段时间 ,则第一次超过能量门限的点被判定
为语音段的起点. 而当测试信号帧的能量低于另一个噪声能
量门限并持续一定时间 ,就可测定语音段的终止点. 噪声能量
门限的估计对这种方法的性能影响很大.
在低噪声环境下 ,如 SNR 大于 20dB 时 ,这种方法具有很
好的性能. 然而 ,实际的语音识别系统常应用于不同的环境.
例如 ,在汽车中 SNR 通常只有几个 dB. 在低 SNR 环境下 ,由于
难以确定适当的门限值 ,基于能量的端点检测不能很好地工
作 ,这种方法也会舍弃一些低能量的清音语音
(
摩擦音 , 如/
f/ ,/ s/
)
,而且 ,难以处理非平衡噪声. 在有些算法中 ,一些其它
收稿日期 :1999206203 ;修回日期 :2000204224
基金项目 :国家自然科学基金
(
No. 69272007
)
第 10 期
2000 年 10 月
电 子 学 报
ACTA ELECTRONICA SINICA
Vol. 28 No. 10
Oct. 2000
评论0