SpeakerVoiceIdentifier-master.zip_GMMmfcc_GMM识别_基于MFCC和GMM

共102个文件

wav：80个

gmm：10个

cpp：3个

版权申诉

说话人识别

5星 · 超过95%的资源 60 浏览量 2022-07-14 12:35:16 上传评论收藏 20.85MB ZIP 举报

"SpeakerVoiceIdentifier-master.zip_GMM mfcc_GMM 识别_基于MFCC和GMM_说话人" 涉及的是一个使用C++编程语言实现的语音识别系统，该系统专注于说话人识别，主要依赖于两种核心技术：Mel频率倒谱系数（MFCC）和高斯混合模型（GMM）。以下是对这些技术及其应用的详细说明。 **1. Mel频率倒谱系数 (MFCC)** MFCC 是一种信号处理技术，常用于语音识别领域，用于提取语音信号的特征。它基于人类听觉系统的特性，模拟人耳对不同频率声音的敏感度。MFCC 过程包括以下步骤： - 预加重：增强高频成分，补偿人耳对高频的自然衰减。 - 分帧和窗函数：将连续的语音信号切分为短帧，并在每帧上应用窗函数以减少信号间的干扰。 - 傅里叶变换：对每帧进行离散傅里叶变换（DFT），将时域信号转换为频域信号。 - Mel滤波器组：在频域上应用一系列Mel尺度滤波器，模拟人耳对声音频率的感知。 - 对数变换：将滤波器组的输出取对数，增强低频部分的差异。 - DCT（离散余弦变换）：通过离散余弦变换将对数能量谱转换为MFCC系数，消除频带间的相关性，进一步压缩特征。 **2. 高斯混合模型 (GMM)** GMM是一种概率模型，常用于统计建模，特别是在语音识别中用于建模语音的声学特征。在说话人识别中，GMM可以看作是多个高斯分布的组合，每个高斯分布代表一种特定的语音特征模式。GMM训练过程包括以下几个步骤： - 初始化：随机分配每个样本到某个高斯分量。 - E-步：计算每个样本属于每个高斯分量的概率。 - M-步：更新每个高斯分量的参数（均值、方差和权重）以最大化后验概率。 - 重复E-M步骤，直到模型收敛或达到预设迭代次数。在说话人识别任务中，GMM与MFCC结合，每个说话人对应一组GMM模型，模型的参数（如均值和方差）根据该说话人的语音特征进行训练。识别时，新语音样本的MFCC特征被输入到所有说话人的GMM模型中，计算其在每个模型下的概率，选择概率最高的模型对应的说话人作为识别结果。 **3. 基于MFCC和GMM的说话人识别** 这个项目使用C++实现了上述技术，构建了一个说话人识别系统。系统可能包含以下组件： - **特征提取模块**：负责计算输入语音信号的MFCC特征。 - **模型训练模块**：使用GMM对每个说话人的MFCC特征进行建模。 - **识别模块**：根据新的语音信号的MFCC特征，通过GMM模型进行识别。 - **数据集管理**：包括训练数据的组织、预处理和存储。 - **评估模块**：通过准确率、召回率等指标评估系统的性能。在"SpeakerVoiceIdentifier-master"这个项目中，包含了实现上述功能的源代码文件，开发者可以通过阅读和修改这些文件来理解和改进这个系统，或者将其应用于其他语音识别相关的项目中。

资源推荐

资源详情

资源评论

收起资源包目录

SpeakerVoiceIdentifier-master.zip_GMM mfcc_GMM 识别_基于MFCC和GMM_说话人（102个子文件）

SpeakerIdCpp.cbp 1KB

gmm.cpp 9KB

mfcc.cpp 9KB

main.cpp 7KB

.gitignore 71B

8.gmm 4KB

1.gmm 4KB

7.gmm 4KB

0.gmm 4KB

6.gmm 4KB

5.gmm 4KB

2.gmm 4KB

9.gmm 4KB

3.gmm 4KB

4.gmm 4KB

gmm.h 2KB

mfcc.h 2KB

LICENSE 34KB

README.md 1KB

SpeakerIdCpp.sln 1KB

CMakeLists.txt 574B

SpeakerIdCpp.vcxproj 7KB

F02_2-48000.wav 797KB

F02-48000.wav 762KB

F03-48000.wav 671KB

F02_3-48000.wav 633KB

F03_2-48000.wav 623KB

F03_3-48000.wav 623KB

F09_2-48000.wav 621KB

F09_3-48000.wav 609KB

F01-48000.wav 598KB

F09_1-48000.wav 598KB

F00_3-48000.wav 586KB

F08_3-48000.wav 574KB

F05-48000.wav 574KB

F03_1-48000.wav 562KB

F05_3-48000.wav 551KB

F02_1-48000.wav 551KB

F07_2-48000.wav 551KB

F01_1-48000.wav 551KB

F08_2-48000.wav 539KB

F07_1-48000.wav 539KB

F00_2-48000.wav 539KB

F05_2-48000.wav 539KB

F09-48000.wav 539KB

F07-48000.wav 516KB

F01_2-48000.wav 516KB

F00_1-48000.wav 516KB

F05_1-48000.wav 516KB

F08_1-48000.wav 504KB

F07_3-48000.wav 492KB

F08-48000.wav 492KB

F00-48000.wav 481KB

F04_3-48000.wav 445KB

F06-48000.wav 445KB

F06_2-48000.wav 445KB

F06_1-48000.wav 422KB

F04-48000.wav 422KB

F06_3-48000.wav 398KB

F04_2-48000.wav 387KB

F01_3-48000.wav 375KB

F04_1-48000.wav 305KB

F02_2-16000.wav 266KB

F02-16000.wav 254KB

F03-16000.wav 224KB

F02_3-16000.wav 211KB

F03_2-16000.wav 208KB

F03_3-16000.wav 208KB

F09_2-16000.wav 207KB

F09_3-16000.wav 203KB

F01-16000.wav 199KB

F09_1-16000.wav 199KB

F00_3-16000.wav 195KB

F08_3-16000.wav 191KB

F05-16000.wav 191KB

F03_1-16000.wav 187KB

F07_2-16000.wav 184KB

F02_1-16000.wav 184KB

F05_3-16000.wav 184KB

F01_1-16000.wav 184KB

F09-16000.wav 180KB

F05_2-16000.wav 180KB

F07_1-16000.wav 180KB

F00_2-16000.wav 180KB

F08_2-16000.wav 180KB

F07-16000.wav 172KB

F01_2-16000.wav 172KB

F05_1-16000.wav 172KB

F00_1-16000.wav 172KB

F08_1-16000.wav 168KB

F08-16000.wav 164KB

F07_3-16000.wav 164KB

F00-16000.wav 160KB

F06-16000.wav 148KB

F06_2-16000.wav 148KB

F04_3-16000.wav 148KB

F06_1-16000.wav 141KB

F04-16000.wav 141KB

F06_3-16000.wav 133KB

F04_2-16000.wav 129KB

共 102 条

SpeakerVoiceIdentifier ====================== SpeakerVoiceIdentifier recognize the voice of a speaker. Introduction ============ SpeakerVoiceIdentifier can recognize the voice of a speaker by learning. Features ======== - Use MFCC (Mel-frequency cepstral coefficients) to analyse the voice - Use GMM classifier (Gaussian mixture model) to modelize and recognize the voice Timing ====== Recognition of one voice between ten : - 5 ms on Core i7 3.4Ghz - 10 ms on Celeron G540 2.5Ghz - 154 ms on Raspberry PI model A Portability =========== - Compatible with x86, x64 and ARM architecture - Compatible with windows and Linux OS. - So it's compatible for Raspberry Pi - No dependency Builds ====== You can build SpeakerVoiceIdentifier with Code::Blocks project (SpeakerIdCpp.cbp) or VS2015 solution (SpeakerIdCpp.sln) or CMake (CMakeLists.txt). Licence ======= SpeakerVoiceIdentifier is free software : you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version. SpeakerVoiceIdentifier is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details. You should have received a copy of the GNU General Public License along with SpeakerVoiceIdentifier. If not, see http://www.gnu.org/licenses/.

评论收藏

内容反馈

版权申诉