mfcc.zip_MFCC资源-CSDN文库

共1个文件

m：1个

版权申诉

86 浏览量 2022-09-22 14:30:08 上传评论收藏 1KB ZIP 举报

MFCC（Mel Frequency Cepstral Coefficients，梅尔频率倒谱系数）是语音处理领域中常用的一种特征提取方法，广泛应用于语音识别、情感分析、语音合成等任务。MFCC能够将复杂的语音信号转化为一系列代表性的数值，这些数值能够有效地捕捉语音的音调和韵律特征。 MFCC提取的过程主要包括以下几个步骤： 1. **预加重**：预加重是通过应用一阶差分公式来模拟人耳对高频成分敏感的特性，通常使用的预加重系数为0.97。这有助于消除声道中的频率响应不均匀性，并增强信号的高频部分。 2. **分帧与窗函数**：将连续的语音信号划分为若干帧，每帧通常为20或30毫秒，帧移5或10毫秒，以避免相邻帧之间的重叠。然后，对每一帧应用窗函数（如汉明窗、哈特利窗等），以减少帧间干扰。 3. **傅立叶变换**：对每帧加窗后的语音信号进行快速傅立叶变换（FFT），得到频域表示。FFT的结果是复数形式，但实际应用中我们关注的是幅度谱。 4. **梅尔滤波器组**：将频域信号通过一组梅尔滤波器，这些滤波器的中心频率按照人耳对声音敏感度的梅尔尺度分布。梅尔滤波器组可以将频域信号转换到梅尔频率域，更好地匹配人类听觉系统。 5. **对数运算**：对梅尔滤波器组输出的功率谱取对数，模拟人耳对声音强度的对数感知。 6. **离散余弦变换（DCT）**：对对数谱进行离散余弦变换，提取出主要的频率成分，即MFCC系数。通常保留前13至26个系数，因为它们包含了大部分语音信息。 7. **动态特性提取**：除了静态的MFCC系数外，还可以计算其一阶差分（表示音调变化）和二阶差分（表示语速变化）来获取语音的动态特性。在压缩包中的"mfcc.m"文件很可能是一个MATLAB脚本，用于实现上述的MFCC计算过程。通过阅读和理解这段代码，我们可以学习如何在实际项目中应用MFCC，例如调整参数以适应不同场景的需求，或者与其他机器学习模型（如支持向量机、神经网络）结合进行语音识别等任务。 MFCC是一种强大的语音特征提取技术，它通过模拟人耳对声音的感知方式来简化复杂的语音信号，便于后续的处理和分析。理解并掌握MFCC的计算流程对于深入研究语音处理领域至关重要。

资源详情

资源评论

资源推荐

收起资源包目录

mfcc.zip （1个子文件）

mfcc.m 2KB

function [ ccc ] = mfcc( x ) %MFCC 此处显示有关此函数的摘要 % mfcc完整参数形成 % 此处显示详细说明 %读取语音信号 audio = audioread(x); %归一化mel滤波器三角滤波器掩蔽效应 bank = melbankm(24,256,8000,0,0.5,'m'); %MELBANKM determine matrix for a mel-spaced filterbank [X,MN,MX]=(P,N,FS,FL,FH,W) % % Inputs: p number of filters in filterbank % n length of fft % fs sample rate in Hz % fl low end of the lowest filter as a fraction of fs (default = 0) % fh high end of highest filter as a fraction of fs (default = 0.5) % w any sensible combination of the following: % 't' triangular shaped filters in mel domain (default) % 'n' hanning shaped filters in mel domain % 'm' hamming shaped filters in mel domain % % 'z' highest and lowest filters taper down to zero (default) % 'y' lowest filter remains at 1 down to 0 frequency and % highest filter remains at 1 up to nyquist freqency % % If 'ty' or 'ny' is specified, the total power in the fft is preserved. % bank = full(bank);%转换为满矩阵 bank = bank/max(bank(:)); %DCT系数，一般为12&24 %12行数，24列数，从n开始内循环到外循环 for k=1:12 n=0:23; dctcoef(k,:) = cos((2*n+1)*k*pi/(2*24)); end %归一化倒谱提升窗口 w = 1 + 6*sin(pi*[1:12]./12);%有公式代入 w = w/max(w); %预加重滤波器 xx = filter([1 -0.9375],1,audio); %语音信号分帧 frame = enframe(xx,256,80); %计算每帧MFCC参数 for i = 1:size(frame,1) y = frame(i,:); s = y'.*hamming(256);%汉明窗 t = abs(fft(s));%快速傅里叶转换 t = t.^2; c1 = dctcoef*log(bank*t(1:129));%129是bank的列数 c2 = c1.*w'; m(i,:)=c2'; end %差分参数 dtm = zeros(size(m)); for i = 3:size(m,1)-2 dtm(i,:) = -2*m(i-2,:) - m(i-1,:) + m(i+1,:) + 2*m(i+2,:); end dtm = dtm/3; %合并MFCC参数 ccc = [m dtm]; %去除首尾帧 ccc = ccc(3:size(m,1)-2,:);%出现24维数是因为12阶MFCC进行一阶差分，形成24维 end