Kaldi决策树状态绑定学习笔记二资源-CSDN文库

Kaldi

状态绑定

3星 · 超过75%的资源需积分: 10 78 浏览量 2017-04-05 14:30:36 上传评论收藏 1.56MB PDF 举报

资源推荐

资源详情

资源评论

Kaldi 决策树状态绑定学习笔记（二）

——如何自动生成问题集？

Kaldi 决策树中使用的问题集并不是手工设计的，而是通过之前得到的统计

量自动生成的。那么在 Kaldi 中是如何自动生成问题的？这就是本次笔记的主要

内容。

在这个笔记中，我会首先介绍自动生成问题集所用到的主程序 cluster-

phones 和主函数 AutomaticallyObtainQuestions()，然后会穿插着介绍主函数用到

的核心函数和完成具体工作的一些 C++对象。最后再讲解程序 compile-question。

建议学习 Kaldi 官方文档《Decision tree internals》的 Classes and functions

involved in tree-building 部分，《 How decision trees are used in Kaldi》的 The tree

building process 部分。

若对似然这些名词和对应的公式感觉陌生，请参考论文《Tree-Based State

Tying For High Accuracy Acoustic Modelling 》 S.J.Young 的第三部分 Tree-

BasedClustering。

cluster-phones

 作用：Cluster phones (or sets of phones) into sets for various purpose. 对多个音

素或多个音素集进行聚类。

 输入：决策树相关统计量 treeacc，多个音素集 sets.int

 输出：自动生成的问题集（每个问题由多个音素组成）

 示例：

cluster-phones $context_opts $dir/treeacc $lang/phones/sets.int \

$dir/questions.int

 过程：

1. 从 treeacc 中读取统计量到 BuildTreeStatsType stats ；读取 vector

pdf_class_list，该变量指定所考虑的 HMM 状态，默认为 1，也就是只考虑

三状态 HMM 的中间状态；从 sets.int 读取 vector<vector> > phone_sets；

默认的三音素参数 N=3，P=1。

2. 若指定的 mode 为 questions，调用 AutomaticallyObtainQuestions()自动生

成问题集 vector<vector> > phone_sets_out；若指定的 model 为 k-means，

调用 KMeansClusterPhones()。此笔记只涉及 questions 模式。

3. 将上述函数自动生成的 phone_sets_out 写到 questions.int。

 文件说明：

下面以我们实验室所用的 sets.int 和 sets.txt 为例，来对 sets.int 文件有一个直

观的感受：（左边是 sets.txt，右边是 sets.int，两图第一列均为行号）

应的统计量，但是这里只把与第二个 HMM 状态相关的统计量留下进行聚类，

其他的都暂时扔掉不用。为什么是第二个？这是由向量 all_pdf_class 指定的，

all_pdf_class 就是程序 cluster-phones 中的参数 pdf_class_list，该向量指定所

考虑的 HMM 状态，默认为 1，也就是只考虑三状态 HMM 的中间状态。至于

为什么是第二个，暂时我也不是很清楚。kPdfClass=-1，指明过滤统计量的 Key，

也就是根据 EventType 的 HMM 状态进行过滤，只留下 all_pdf_classes 指定的

HMM 状态对应的 stats。

BuildTreeStatsType retained_stats;

FilterStatsByKey(stats, kPdfClass, all_pdf_classes,

true, // retain only the listed positions

&retained_stats);

3. 调用 SplitStatsByKey(),根据三音素的中间音素对 retained_stats 进行划分，把

属于每个音素的统计量放在一个 BuildTreeStatsType 中。由参数 P 指定根据三

音素的第几个音素进行划分，因为此处 P 是 1，所以是三音素的中间音素。

举个例子，我们实验室的所用的音素一共有 215 个，假设每个音素都出现在

三音素的中间位置，对 retained_stats 进行划分之后，split_stats 的元素个数是

215，每一个元素保存着(中间音素都是 x 的所有三音素对应的所有统计量)。

std::vector<BuildTreeStatsType> split_stats; // split by phone.

SplitStatsByKey(retained_stats, P, &split_stats);

4. 调用 SumStatsVec()把 split_stats 每个元素中的所有统计量加起来，得到每个

中间音素的统计量，也就是 summed_stats，其维数为音素个数。

从上一步我们知道，split_stats 的每一个元素保存着中间音素都是 x 的所

有三音素对应的所有统计量，因为音素 x 左右音素的不同，所以 split_stats 这

个元素中保存的统计量有很多，现在把中间音素都是 x 的所有三音素对应的

所有统计量累加起来（就是把这些 GaussClusterable 的 count_相加、stats_相

加）；对 split_stats 的每个元素都执行这样的操作后，就得到了 summed_stats。

举个例子，我们实验室的所用的音素一共有 215 个，最终的 summed_stats

就只有 215 个元素，每个元素保存着某音素作为三音素中间音素、其 HMM

状态为第二个状态对应的所有统计量的累积。

std::vector<Clusterable*> summed_stats; // summed up by phone.

SumStatsVec(split_stats, &summed_stats);

5. 根据 sets.int 指定的集合，累加同一个集合中音素的统计量。从上面 sets.int

文件的图片可以看出，该文件的一行就是一个音素的集合，这块代码的作用

就是把属于 sets.int 文件同一行的音素的统计量累加在一起，所以最后

summed_stats 的维数就是 sets.int 的行数，一行对应一个统计量。

std::vector<Clusterable*> summed_stats_per_set(phone_sets.size(), NULL);

for (size_t i = 0; i < phone_sets.size(); i++) {

const std::vector<int32> &this_set = phone_sets[i];

summed_stats_per_set[i] = summed_stats[this_set[0]]->Copy();

for (size_t j = 1; j < this_set.size(); j++)

summed_stats_per_set[i]->Add(*(summed_stats[this_set[j]]));

}

6. 调用 TreeCluster()，对 summed_stats_per_set 进行聚类，生成相关信息。

TreeCluster()是 AutomaticallyObtainQuestions()最核心的部分，该函数的具体解

剩余13页未读，继续阅读

评论收藏

内容反馈

gubinbing

2018-07-10

还是不错的

开拓的博客

粉丝: 179
资源: 9

Kaldi决策树状态绑定学习笔记二

Kaldi决策树状态绑定学习笔记

kaldi学习资料

Kaldi 学习-02.pdf

Kaldi三音素GMM学习笔记

Kaldi单音素GMM学习笔记

决策树状态绑定学习笔记一

决策树状态绑定学习笔记（一）

Kaldi学习笔记1.md

Kaldi学习笔记1备份.md

Kaldi 学习03.pdf

kaldi中文资料_v0.4和thch30学习笔记.zip

Dan介绍Kaldi2的ppt

Kaldi 学习基础篇（二）--Shell 学习基础.pdf

kaldi语音识别资料.rar_kaldi_kaldi pdf 0.7_kaldi资料_语音识别

kaldi voxforge online demo

单音素GMM学习笔记

kaldi-master.zip_kaldi_kaldi 源码_声纹识别_音频_音频识别

kaldi入门资料整理

Vector Davinci官方帮助配置使用手册（AutoSAR）.pdf

c++入门，核心，提高讲义笔记

数字图像处理 冈萨雷斯 课后习题

离散数学及其应用 第八版 奇数编号练习答案.pdf

科研伦理与学术规范 期末考试2 （40题）.pdf

最值得收藏的 考研线性代数 全部知识点思维导图整理(张宇, 汤家凤), 附带惯用思维/做题技巧/易错点整理.emmx

软件著作权设计说明书模板（含填写说明）.docx

AUTOSAR培训教材.rar

菜菜sklearn课程讲义.rar

“互联网+”大学生创新创业大赛项目计划书

最新资源

数字图像处理冈萨雷斯课后习题

离散数学及其应用第八版奇数编号练习答案.pdf

科研伦理与学术规范期末考试2 （40题）.pdf

最值得收藏的考研线性代数全部知识点思维导图整理(张宇, 汤家凤), 附带惯用思维/做题技巧/易错点整理.emmx