matlab-基于matlab的语音编码器实现人类语音信号合成-源码资源-CSDN文库

共3个文件

wav：2个

m：1个

版权申诉

44 浏览量 2021-09-15 23:10:50 上传评论收藏 59KB RAR 举报

在本文中，我们将深入探讨如何使用MATLAB进行语音编码，特别是在人类语音信号合成方面的实践。MATLAB是一款强大的数值计算和数据分析软件，同时也被广泛应用于信号处理领域，包括语音编码和合成。语音编码是将模拟语音信号转换为数字信号的过程，以便在数字通信系统中传输或存储。这个过程涉及采样、量化和编码等多个步骤。在MATLAB中，我们可以利用其内置的信号处理工具箱来实现这些功能。让我们关注"采样"。根据奈奎斯特定理，无损地恢复模拟信号至少需要以两倍于信号最高频率的速率进行采样。在语音信号中，常用的是8kHz或16kHz的采样率。在MATLAB中，我们可以使用`audioread`函数读取音频文件，并用`audiowrite`函数以所需的采样率写入新的音频数据。接下来是"量化"。量化是将连续的幅度值转换为离散的数字表示的过程。在MATLAB中，我们通常会使用量化矩阵来实现这一过程。例如，我们可以使用`quantize`函数将浮点数转换为指定位数的整数。然后是"编码"。语音编码有很多种方法，比如脉冲编码调制（PCM）、线性预测编码（LPC）、码本激励线性预测（CELP）等。在MATLAB中，我们可以自定义编码算法，或者使用内置的编码器函数。例如，对于PCM编码，我们可以直接使用量化后的整数表示；而对于更复杂的LPC编码，我们需要先计算语音信号的线性预测系数，然后使用这些系数来预测后续样本，进而实现编码。在语音合成方面，MATLAB提供了多种工具和技术，如频谱分析、滤波器设计和声码器。声码器是用于模拟人类发音机制的模型，它可以将文本或参数转化为可听的声音。MATLAB中的`fbank`函数可以生成梅尔频率倒谱系数（MFCC），这是一种常用的语音特征提取方法。结合这些特征和适当的模型，我们可以构建一个基本的文本转语音系统。至于源码部分，"matlab_基于matlab的语音编码器实现人类语音信号合成_源码"很可能包含了一系列MATLAB脚本和函数，用于实现上述的各个环节。这些源码可能包括了语音的读取、预处理、编码、合成等步骤，也可能涉及到特定的声学模型和语言模型。通过阅读和理解这些源码，我们可以学习到实际的MATLAB语音处理技巧，并有可能进一步优化或定制自己的语音编码器。 MATLAB作为强大的工具，为我们提供了一个便捷的平台来研究和实现语音编码和合成。通过对给定的源码进行学习和实践，不仅可以深入理解语音处理的基本原理，也能提升在信号处理领域的专业技能。

资源推荐

资源详情

资源评论

收起资源包目录

matlab_基于matlab的语音编码器实现人类语音信号合成_源码.rar （3个子文件）

matlab_基于matlab的语音编码器实现人类语音信号合成_源码

synth_signal.wav 39KB

dat.wav 78KB

Runme.m 4KB

clc; clear; close all; warning off; addpath(genpath(pwd)); %**************************************************************************** %更多关于matlab和fpga的搜索“fpga和matlab”的CSDN博客: %matlab/FPGA项目开发合作 %https://blog.csdn.net/ccsss22?type=blog %**************************************************************************** [A, Fs]= audioread('dat.wav'); A = A(:,1); frame_size = 0.030; % 30 ms frame_length = Fs*frame_size; percent_overlap = 0; % 50% overlap frame_overlap = frame_length*percent_overlap/100; frame_step = frame_length - frame_overlap; audio_length = length(A); no_of_frames = floor(abs(audio_length - frame_overlap)/(abs(frame_length - frame_overlap))); rest_samples = mod(abs(audio_length - frame_overlap) , abs(frame_length - frame_overlap)); % padding if remaining samples != 0 if rest_samples ~= 0 pad_signal_length = int16(frame_length - rest_samples); z = zeros(pad_signal_length,1); %A(end+1:end+pad_signal_length)= 0; A = vertcat(A, zeros(pad_signal_length,1)); no_of_frames = no_of_frames + 1; end % framing mat = zeros(no_of_frames, frame_length); i = 1; for r = 1:no_of_frames for c = 1:frame_length mat(r,c) = A(i); i = i+1; end i = i-frame_overlap; end % hamming window coefficients hamming = zeros(1,frame_length); for i=1:frame_length x = 2*pi*(i-1); x = x./(frame_length-1); hamming(1,i)=0.54-0.46.*cos(x); end % windowing for r = 1:no_of_frames mat(r,:)= mat(r,:).*hamming; end % computing ste and ZCR ZCR = zeros(no_of_frames,1); STE = zeros(no_of_frames,1); for r = 1:no_of_frames STE(r) = sum(mat(r,:).^2); ZCR(r) = mean(abs(diff(sign(mat(r,:))))); end STE_thresh = 0.456; ZCR_thresh = 0.5; OUTPUT_STE = zeros(no_of_frames,1); for i = 1:no_of_frames if STE(i) > STE_thresh OUTPUT_STE(i) = 1.0; else OUTPUT_STE(i) = 0.0; end end OUTPUT_ZCR = zeros(no_of_frames,1); for i = 1:no_of_frames if ZCR(i) > ZCR_thresh OUTPUT_ZCR(i) = 0.0; else OUTPUT_ZCR(i) = 1.0; end end % output array for plot o_arr1 = zeros(length(A),1); j = 1;k = 1; for i = 1:no_of_frames while k <= frame_length if OUTPUT_STE(i) == 1.0 o_arr1(j) = 0.2; else o_arr1(j) = -0.2; end k = k + 1; j = j + 1; end k = 1 + frame_overlap; end % output array for plot o_arr2 = zeros(length(A),1); j = 1;k = 1; for i = 1:no_of_frames while k <= frame_length if OUTPUT_ZCR(i) == 1.0 o_arr2(j) = 0.3; else o_arr2(j) = -0.3; end k = k + 1; j = j + 1; end k = 1 + frame_overlap; end x = linspace(1,length(A),length(A)); figure(1); plot(x,A) hold on plot(x,o_arr1,'-r') plot(x,o_arr2,'-g') legend('INPUT SIGNAL','OUTPUT WITH STE','OUTPUT WITH ZCR'); title('VOICED UNVOICED SEGMENTS') hold off % lpc for each frame (row wise) no_of_coeff = 13; %no of lpc coeff lpc_mat = zeros(no_of_frames, no_of_coeff); for i = 1:no_of_frames [lpc_coeff,g] = lpc(mat(i,:),no_of_coeff); lpc_mat(i,:) = lpc_coeff(2:end); end % excitation for voiced exciteV = zeros(1,frame_length); % (framelength) fs = Fs; %sampling freq is 8kHz pitch_period = 0.0075; %7.5 ms no_of_samples_in_one_period = fs*pitch_period; oneperiod = randi([0 1], 1,no_of_samples_in_one_period); %generating impulse of samples p = 0; l = frame_length/no_of_samples_in_one_period; for i = 1:l for j = 1:no_of_samples_in_one_period exciteV(1,p+j) = oneperiod(1,j); end p = p+no_of_samples_in_one_period; end % excitation for unvoiced exciteUV = normrnd(0,1,[1,frame_length]); synth_signal = zeros(1,length(A)); p=1; for i = 1:no_of_frames if OUTPUT_ZCR(i)==1 s = filter(1,[1 lpc_mat(i,:)], exciteV); else s = filter(1,[1 lpc_mat(i,:)], exciteUV); end synth_signal(p:p+frame_length-1)= s; p = p+frame_length; end %plot synthesised and original signal x = linspace(1,length(A),length(A)); figure(2); subplot(2,1,1); plot(x,A); title('SIGNAL PLOT') legend('original signal'); subplot(2,1,2); plot(x,synth_signal,'-r'); legend('synthesized signal'); %plot difference signal A = reshape(A,[1,length(A)]); rmse = sqrt(mean((A - synth_signal).^2)); figure(3); plot(x, A-synth_signal); title('DIFFERENCE SIGNAL') synth_signal = rescale(synth_signal,-1,1);

评论收藏

内容反馈

版权申诉