单词识别.zip_matlab_单词识别_matlab如何统计单词频率资源-CSDN文库

共5个文件

mat：3个

m：2个

版权申诉

107 浏览量 2022-07-14 19:17:14 上传评论收藏 1.05MB ZIP 举报

在本项目中，我们主要探讨的是使用MATLAB进行单词识别的技术。MATLAB，全称“矩阵实验室”，是一款强大的数学计算和编程环境，尤其适合于信号处理、图像处理和模式识别等任务。在这个“单词识别”项目中，我们将利用MATLAB的工具和算法来构建一个系统，能够识别不同人的发音，对样本库中的单词进行有效识别。我们要理解单词识别的基本流程。通常，这包括以下几个关键步骤： 1. **音频采集**：系统首先需要接收音频输入，这可以通过连接麦克风或导入预录的音频文件完成。MATLAB提供了`audioread`函数来读取音频数据。 2. **预处理**：音频数据需要经过预处理，如去除噪声、采样率转换和归一化等，以便后续分析。MATLAB的信号处理工具箱提供了多种滤波器和预处理函数。 3. **特征提取**：提取有意义的特征是识别的关键。在语音识别中，常见的特征有MFCC（梅尔频率倒谱系数）和PLP（感知线性预测）等。MATLAB的`melcepst`函数可计算MFCC。 4. **模型训练**：利用提取的特征，我们需要训练一个模型来区分不同的单词。这可能涉及到支持向量机（SVM）、神经网络或者隐藏马尔科夫模型（HMM）。MATLAB的统计与机器学习工具箱提供了这些模型的实现。 5. **识别与决策**：将测试样本的特征输入到训练好的模型中，模型会返回最可能的单词标签。这一步通常涉及概率计算和决策规则。 6. **后处理**：为了提高识别准确率，可能还需要进行错误纠正或上下文关联分析。在压缩包“单词识别”中，很可能包含了实现这些步骤的MATLAB代码和样本库。样本库通常包含各种人在不同条件下的单词发音，用于训练和测试模型。代码可能涉及音频处理、特征提取、模型训练以及识别算法的实现。在实际应用中，单词识别技术有广泛的应用，例如智能语音助手、语音命令控制、电话自动服务系统等。通过不断优化模型，我们可以提高识别的准确性和鲁棒性，适应更多的环境和个体差异。总结来说，这个MATLAB实现的单词识别项目是一个典型的信号处理和机器学习问题，它涵盖了音频处理、特征工程、模式识别等多个领域，对于理解和提升在这些方面的技能非常有帮助。在深入研究和实践中，你将更深入地了解语音识别的工作原理，并有可能创造出更加先进的识别系统。

资源详情

资源评论

资源推荐

收起资源包目录

单词识别.zip （5个子文件）

单词识别

code

setTemplates.m 5KB

Vectors3.mat 358KB

Vectors1.mat 345KB

matchTemplates.m 5KB

Vectors2.mat 363KB

function setTemplates s1.data=[]; s2.data=[]; s3.data=[]; s1.fs=16000; s2.fs=16000; s3.fs=16000; for i=1:10 fs=16000; duration=2; fprintf('Begin by pressing any key % gseconds:\n',duration);pause fprintf('recording...\n'); myrecord=audiorecorder(fs,8,1); recordblocking(myrecord, duration); myrecord = getaudiodata(myrecord); fprintf('Finish\n'); speechIn=my_vad(myrecord); s1.data{i}=mfcc(speechIn,fs,12,256,80); end save Vectors1 s1; for i=1:10 fs=16000; duration=2; fprintf('Begin by pressing any key % gseconds:\n',duration);pause fprintf('recording...\n'); myrecord=audiorecorder(fs,8,1); recordblocking(myrecord, duration); myrecord = getaudiodata(myrecord); fprintf('Finish\n'); speechIn=my_vad(myrecord); s2.data{i}=mfcc(speechIn,fs,12,256,80); end save Vectors2 s2; for i=1:10 fs=16000; duration=2; fprintf('Begin by pressing any key % gseconds:\n',duration);pause fprintf('recording...\n'); myrecord=audiorecorder(fs,8,1); recordblocking(myrecord, duration); myrecord = getaudiodata(myrecord); fprintf('Finish\n'); speechIn=my_vad(myrecord); s3.data{i}=mfcc(speechIn,fs,12,256,80); end save Vectors3 s3; end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% function [afterEndDet]=my_vad(x) x = double(x); x = x / max(abs(x)); %常数设置 FrameLen = 256;%帧长为256点 FrameInc = 80;%帧移为80点 amp1 = 10;%初始短时能量高门限 amp2 = 2;%初始短时能量低门限 zcr1 = 10;%初始短时过零率高门限 zcr2 = 5;%初始短时过零率低门限 maxsilence = 8; % 8*10ms = 80ms minlen = 15; % 15*10ms = 150ms %语音段的最短长度，若语音段长度小于此值，则认为其为一段噪音 status = 0; %初始状态为静音状态 count = 0; %初始语音段长度为0 silence = 0; %初始静音段长度为0 %计算过零率 x1=x(1:end-1); x2=x(2:end); %分帧 tmp1=enframe(x1,FrameLen,FrameInc); tmp2=enframe(x2,FrameLen,FrameInc); signs = (tmp1.*tmp2)<0; diffs = (tmp1 -tmp2)>0.02; zcr = sum(signs.*diffs, 2);%一帧一个值 amp = sum(abs(enframe(x, FrameLen, FrameInc)), 2); %调整能量门限 amp1 = min(amp1, max(amp)/4); amp2 = min(amp2, max(amp)/8); x1 = 0; x2 = 0; v_num=0;%记录语音段数 v_Begin=[];%记录所有语音段的起点 v_End=[];%记录所有语音段的终点 for n=1:length(zcr) goto = 0; switch status case {0,1} % 0 = 静音, 1 = 可能开始 if amp(n) > amp1 % 确信进入语音段 x1 = max(n-count-1,1); % '打印每个x1*FrameInc' % x1*FrameInc status = 2; silence = 0; count = count + 1; elseif amp(n) > amp2 | ... % 可能处于语音段 zcr(n) > zcr2 status = 1; count = count + 1; else % 静音状态 status = 0; count = 0; end case 2, % 2 = 语音段 if amp(n) > amp2 | ... % 保持在语音段 zcr(n) > zcr2 count = count + 1; else % 语音将结束 silence = silence+1; if silence < maxsilence % 静音还不够长，尚未结束 count = count + 1; elseif count < minlen % 语音长度太短，认为是噪声 status = 0; silence = 0; count = 0; else % 语音结束 status = 3; end end case 3, %break; %记录当前语音段数据 v_num=v_num+1; %语音段个数加一 count = count-silence/2; x2 = x1 + count -1; v_Begin(1,v_num)=x1*FrameInc; v_End(1,v_num)=x2*FrameInc; %不跳出数据归零继续往下查找下一段语音 status = 0; %初始状态为静音状态 count = 0; %初始语音段长度为0 silence = 0; %初始静音段长度为0 end end if length(v_End)==0 x2 = x1 + count -1; v_Begin(1,1)=x1*FrameInc; v_End(1,1)=x2*FrameInc; end lenafter=0; for len=1:length(v_End) tmp=v_End(1,len)-v_Begin(1,len); lenafter=lenafter+tmp; end afterEndDet=zeros(lenafter,1);%返回去除静音段的语音信号 beginnum=0; endnum=0; for k=1:length(v_End) tmp=x(v_Begin(1,k):v_End(1,k)); beginnum=endnum+1; endnum=beginnum+v_End(1,k)-v_Begin(1,k); afterEndDet(beginnum:endnum)=tmp; end end %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% function ccc=mfcc(x,fs,p,frameSize,inc) bank=melbankm(p,frameSize,fs,0,0.5,'m'); bank=full(bank); bank=bank/max(bank(:)); for k=1:12 n=0:p-1; dctcoef(k,:)=cos((2*n+1)*k*pi/(2*p)); end w=1+6*sin(pi*[1:12]./12); w=w/max(w); xx=double(x); xx=filter([1-0.9375],1,xx); xx=enframe(xx,frameSize,inc); n2=fix(frameSize/2)+1; for i=1:size(xx,1) y=xx(i,:); s=y'.*hamming(frameSize); t=abs(fft(s)); t=t.^2; c1=dctcoef*log(bank*t(1:n2)); c2=c1.*w'; m(i,:)=c2'; end dtm=zeros(size(m)); for i=3:size(m,1)-2 dtm(i,:)=-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:); end dtm=dtm/3; ccc=[m dtm]; ccc=ccc(3:size(m,1)-2,:); end