![preview](https://dl-preview.csdnimg.cn/28830688/0001-f6e5f29397c8947698751ef8c82585c7_thumbnail.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
【LVCSR语音识别系统搭建】涉及的是语音识别技术,特别是基于Kaldi框架的实现。Kaldi是一个开源的信号处理和机器学习工具包,专门用于自动语音识别(ASR)任务。在这个项目中,我们将深入理解如何搭建一个大型词汇连续语音识别(LVCSR)系统。 首先,【数据处理及特征提取】是构建语音识别系统的基石。这一步包括了词典准备和数据整理。在词典准备阶段,`aishell_prepare_dict.sh`脚本用于处理`resource_aishell`下的`lexicon.txt`,生成额外的文件如`extra_questions.txt`等,这些文件分别存储了非静音音素、静音音素等信息。词典包含了大约14万个中文词汇及其对应的读音,包括声调,并按拼音首字母排序,同时也处理了多音字的情况。 接着,`aishell_data_prep.sh`负责数据整理,指定使用`aishell_transcript_v0.8.txt`作为语料,并生成相应的`transcripts.txt`。在`data`目录下创建`train`、`dev`和`test`子目录,这些目录包含了诸如`spk2utt`、`text`、`utt2spk`等文件,它们分别记录了说话者与句子的映射、句子文本、说话者与句子的映射以及音频文件路径等关键信息。 然后,【Phone Sets, questions, L compilation】阶段,`utils/prepare_lang.sh`用于创建`lang`文件夹,包含发音字典的有限状态机模型(L.fst)、消歧版的L_disambig.fst,以及其他如phones.txt、words.txt等文件,这些文件记录了音素和单词的编号,以及未登录词(OOV)信息。`topo`文件描述了音素的HMM模型拓扑结构。同时,`phone`文件夹保存了音素的详细信息。在`data/local/lang`下,`lexiconp_disambig.txt`添加了消歧符号,为生成L_disambig.fst做准备。 【特征提取】步骤中,使用`steps/make_mfcc_pitch.sh`提取MFCC(Mel Frequency Cepstral Coefficients)和基频特征,再通过`steps/compute_cmvn_stats.sh`执行倒谱均值方差归一化(CMVN),以减少说话人和环境的影响。 【模型训练】阶段分为两个主要部分: 1. 语言模型及WFST:`local/aishell_train_lms.sh`利用`ngram-count`计算词的条件概率和回退概率,生成三元组语言模型(3gram-mincount/lm_unpruned.gz)。接着,`utils/format_lm.sh`将语言模型转化为WFST图(G.fst)。 2. 单音素模型训练:使用`train_mono.sh`训练GMM-HMM声学模型。此过程包括初始化、对齐、参数更新等步骤,生成的模型存储在`exp/mono`目录下。 整个流程中,Kaldi通过处理语音数据,提取特征,构建语言模型,训练声学模型,逐步优化识别性能,从而构建出一个完整的LVCSR系统。这个过程展示了语音识别技术在实际应用中的复杂性和精细度,以及Kaldi框架在处理这些问题上的强大能力。
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/606b51df58e549d89972cec0bccd3be8_z_m_zzmz.jpg!1)
- 粉丝: 11
- 资源: 7
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)