语音端点检测的方法
演讲者:刘德体
演讲者:刘德体
语音端点检测的目的和意义
基于短时能量和短时平均过零率的端点检
测
基于倒谱特征的端点检测
基于熵的端点检测
基于复杂性的端点检测( KC 复杂性和 C0
复杂性)
不同语音端点检测方法的实验结果对比
语音端点检测的目的和意义
目的
语音信号端点检测技术其目的就是从包含语音的一段信号中准确
地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处
理技术中的一个重要方面。
意义
有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,
节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统
的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编
码效率。
基于短时能量和短时平均过零率的
端点检测
短时能量
语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声
段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信
噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能
够把语音段和噪声背景区分开。这是仅基于短时能量的端点检测方法。
信号 {x(n)} 的短时能量定义为 :
语音信号的短时平均幅度定义为 :
其中 w(n) 为窗函数。
短时平均过零率
短时过零表示一帧语音信号波形穿过横轴 ( 零电平 ) 的次数。过零分
析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着
时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符
号称为过零。过零率就是样本改变符号次数。
信号 {x(n)} 的短时平均过零率定义为 :
式中, sgn 为符号函数,即 :