语音特征提取详解PPT,包含 3.1语音 预处理 3.2 短时傅里叶变换 3.3 听觉特性 3.4 线性预测 3.5 倒谱分析 3.6 常用的声学特征 3.6.1 语谱图 3.6.2 FBank 3.6.3 MFCC 3.6.4 PLP 以及总结 语音特征提取是语音识别技术中的核心步骤,它旨在从原始语音信号中提取出对说话人、语言内容等信息有区分性的特征。以下是对这个领域的详细解释: **预处理**是特征提取的第一步,目的是优化原始语音信号,使其更适合后续分析。预处理包括: 1. **预加重**:由于语音在口腔传播过程中高频成分被衰减,预加重通过应用一个滤波器(如一阶高通滤波器,公式为𝑥′ 𝑛 = 𝑥 𝑛 − 𝛼𝑥 𝑛 − 1 ,其中𝛼 = 0.97)来补偿这种损失,增强高频成分。 2. **分帧**:将长语音信号分成短时片段(例如10-30ms),并设置适当的帧移(如10ms),以利用语音的短时平稳性进行分析。 3. **加窗**:对每个分帧后的信号加上窗函数(如汉明窗、汉宁窗或布莱克曼窗),以减少频谱泄露并改善频谱分辨率。 接下来,**短时傅里叶变换(STFT)**用于分析这些加窗后的短时信号。STFT能够揭示信号在时频域的特性,通过计算DFT来获取每个帧的频谱。DFT公式为:𝑋 𝑘 = σ𝑛=0𝑁−1 𝑥 𝑛 e^(-𝑗2𝜋𝑘𝑛𝐾),其中𝑥[𝑛]是时域采样点,𝑋[𝑘]是频谱点,𝑁是采样点数,𝐾是DFT大小。DFT结果通常是复数,包含了幅度频谱和能量频谱信息。 STFT之后,为了模拟人类听觉系统的特性,通常会进行**听觉特性**的考虑,例如通过**倒谱分析**来近似人耳对声音频率响应的非线性特性。 在特征提取阶段,常见的**声学特征**包括: 1. **语谱图**:显示了语音信号的频率随时间的变化,是STFT的直观表示。 2. **FBank(滤波器组谱)**:通过一组滤波器对频谱进行采样,得到反映人耳感知的频谱特性。 3. **MFCC(梅尔频率倒谱系数)**:进一步简化FBank特征,通过梅尔滤波器、对数变换和离散余弦变换得到,是语音识别中最常用的特征之一。 4. **PLP(感知线性预测)**:基于线性预测编码,但考虑了听觉系统的感知特性,适用于噪声环境下的语音识别。 通过组合和归一化这些特征,形成一个特征向量,用于训练和识别模型。这一系列步骤对于语音识别系统来说至关重要,因为它们决定了系统能否准确地理解并解析语音信号。
- 粉丝: 3w+
- 资源: 4
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助