教你如何用HTK搭建简单的语音拨号系统资源-CSDN文库

共255个文件

mfc：155个

hmmdefs：17个

macros：17个

语音识别

5星 · 超过95%的资源需积分: 10 119 浏览量 2009-10-16 16:07:24 上传评论 1 收藏 8.6MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

教你如何用HTK搭建简单的语音拨号系统（255个子文件）

setpath.bat 3B

beep 7.27MB

config1 224B

config2 259B

global2.ded 34B

global.ded 30B

global3.ded 27B

beep.ded 0B

names.ded 0B

dict1 757B

dict2 757B

dict3 777B

dict4 788B

dict5 717B

dict5-tri 1001B

dlog 1KB

flog 914B

fulllist 476B

gram 247B

tree.hed 14KB

mktri.hed 1KB

sil.hed 112B

hmmdefs 279KB

hmmdefs 192KB

hmmdefs 190KB

hmmdefs 109KB

hmmdefs 108KB

hmmdefs 107KB

mkphones0.led 23B

mktri.led 19B

mkphones1.led 16B

log 25KB

macros 636B

macros 602B

maketrihed 499B

S0038.mfc 232KB

S0011.mfc 205KB

S0049.mfc 189KB

S0081.mfc 181KB

S0053.mfc 180KB

S0096.mfc 169KB

S0031.mfc 168KB

S0068.mfc 156KB

S0006.mfc 156KB

S0014.mfc 128KB

S0048.mfc 113KB

S0003.mfc 110KB

S0120.mfc 104KB

S0030.mfc 98KB

S0082.mfc 98KB

T0010.mfc 97KB

S0079.mfc 96KB

S0040.mfc 93KB

S0041.mfc 92KB

S0064.mfc 92KB

S0008.mfc 84KB

T0014.mfc 82KB

S0114.mfc 78KB

T0011.mfc 72KB

S0113.mfc 69KB

S0131.mfc 68KB

S0002.mfc 67KB

S0103.mfc 65KB

S0056.mfc 63KB

S0101.mfc 61KB

S0106.mfc 60KB

S0073.mfc 57KB

T0008.mfc 54KB

S0062.mfc 54KB

S0012.mfc 54KB

S0080.mfc 53KB

S0046.mfc 52KB

S0105.mfc 48KB

S0086.mfc 44KB

共 255 条

应用 HTK 搭建语音拨号系统

苏统华

哈尔滨工业大学人工智能研究室

2006 年 10 月 30 日

该系统能够识别连续说出的数字串和若干组姓名。建模是针对子词(sub-word, eg. 音

素)，具有一定的可扩充性。当加入一个新名字时，只需修改发音词典和任务语法即可。模

型为连续混合高斯输出，运用语音决策树聚类形成的绑定状态式三音素。

1. 数据准备

需要录制训练数据和测试数据。为进行校准，还需要数据的标注文本。这里用任务语法

(task grammar)产生真值文本(ground truth)。为了处理训练数据，需要定义一个语音集合和一

个字典用以涵盖训练和测试数据中涉及的单词。

[step 1]任务语法定义

任务语法以包含变量的正则表达式形式定义，存储在文件 gram 里：

文件名：gram

$name = [ SUE ] LAW |

[ JULIAN ] TYLER |

[ DAVE ] WOOD |

[ PHIL ] LEE |

[ STEVE ] YOUNG;

( SENT-START ( DIAL <$digit> | (PHONE|CALL) $name) SENT-END )

上面的语法是高层表示，必须通过 HParse 转成 HTK 可用的底层表示。底层表示存于文

件 wnet 中：

HParse gram wdnet

文件名：wdnet

VERSION=1.0

N=31 L=62

I=0 W=SENT-END

I=1 W=YOUNG

……

J=0 S=2 E=0

……

J=61 S=0 E=29

苏统华.哈尔滨工业大学人工智能研究室.2006

[step 2]字典定义

此例中利用 BEEP 语音字典，除去其中的重音符，并在每个发音后加入 sp（short pause,

小停顿）。如果有哑音标志，就用 MP 命令把 sil 和 sp 合并成 sil。这些处理命令放在 global.ded

编辑脚本中：

文件名：global.ded

AS sp

RS cmu

MP sil sil sp

执行 HDMan 生成与任务相关的发音词典 dict1：

HDMan -m -w .\lists\wlist -n .\lists\monophones1 -l dlog .\dict\dict1 .\dict\beep .\dict\names

上面的 names 文件是手工制作的专有人名的发音（包括 SEND-START，SEND-END），文件

wlist 是出现在任务语法中的所有单词的有序列表，文件 monophones1 是用到的音素的列表，

dlog 为参数文件。

注 1：实际上，这里应该手工修改 dict1，为 SENT-END 和 SENT-START 加上无输出标志，

为了展示队后面步骤地影响，这里故意不添加。

文件名：.\dict\dict1

CALL k ao l sp

DAVE d ey v sp

DIAL d ay ax l sp

EIGHT ey t sp

FIVE f ay v sp

FOUR f ao sp

FOUR f ao r sp

JULIAN jh uw l ia n sp

JULIAN jh uw l y ax n sp

LAW l ao sp

LEE l iy sp

NINE n ay n sp

OH ow sp

ONE w ah n sp

PHIL f ih l sp

PHONE f ow n sp

SENT-END sil

SENT-START sil

SEVEN s eh v n sp

SIX s ih k s sp

STEVE s t iy v sp

SUE s uw sp

SUE s y uw sp

THREE th r iy sp

应用 HTK 搭建语音拨号系统

TWO t uw sp

TYLER t ay l ax sp

WOOD w uh d sp

YOUNG y ah ng sp

ZERO z ia r ow sp

文件名：.\dict\names

DAVE d ey v

JULIAN jh uw l y ax n

JULIAN jh uw l ia n

LAW l ao

LEE l iy

PHIL f ih l

SENT-END [] sil

SENT-START [] sil

STEVE s t iy v

SUE s uw

SUE s y uw

TYLER t ay l ax

WOOD w uh d

YOUNG y ah ng

为了避免在 dlog 里出现烦人的 wanning，那就在 names 和 beep 同一目录下分别建立同

名的编辑脚本，内容为空即可。

文件名：names.ded

文件名：beep.ded

[step 3]录制语音数据

HSGen 工具可以生成符合 task grammar 的句子，用来指导录音(HTK book 里叫 sentence

prompts)：

HSGen -l -n 140 wdnet .\dict\dict1>.\labels\trainprompts

HSGen -l -n 15 wdnet .\dict\dict1>.\labels\testprompts

根据上述指令文件，录制相应的 140 个训练用语音数据文件和 15 个测试用语音数据文

件。一个录制的例子如下：

HSLab .\data\Train\speech\S0001

注 2：随本文的压缩包没有包括这些数据文件，但包括了它们对应的特征文件，所以对整个

实验没有什么影响。

苏统华.哈尔滨工业大学人工智能研究室.2006

[step 4]标注数据，得到真值文件

Perl 脚本 prompts2mlf 可以把录音文本截成单词级真值文件。例如：

perl .\scripts\prompts2mlf .\labels\trainwords.mlf .\labels\trainprompts

perl .\scripts\prompts2mlf .\labels\testwords.mlf .\labels\testprompts

标注编辑器 HLEd 可把单词级真值文本（word level MLF）转成音素级真值文本（phone

level MLF）：

HLEd -l * -d .\dict\dict1 -i .\labels\phones0.mlf mkphones0.led .\labels\trainwords.mlf

编辑脚本 mkphones0.led 的内容如下：

文件名：mkphones0.led

IS sil sil

DE sp

EX 命令表示按照字典 dict1 进行展开，IS 表示在每个话语的前后插入标志，DE 一行表示

phones0.mlf 中单词间不用 sp 隔开。

[step 5]数据的特征提取

这里所用特征为 MFCC。工具 HCopy 可以实现提取特征的工作。

HCopy -T 1 -C .\config\config1 -S codetr.scp

其中，配置文件 config1 要设置转换参数，另一脚本文件(script file)codetr.scp 指定训练

及输入和输出文件列表。执行结果，HCopy 对 codetr.scp 文件左侧的语音数据按 config 的配

置提取特征并存入 codetr.scp 文件右侧特征文件中。

文件名：.\config\config1

# Coding parameters

TARGETKIND = MFCC_0_D_A

TARGETRATE = 100000.0

SAVECOMPRESSED = T

SAVEWITHCRC = T

WINDOWSIZE = 250000.0

USEHAMMING = T

PREEMCOEF = 0.97

NUMCHANS = 26

CEPLIFTER = 22

NUMCEPS = 12

ENORMALISE = F

对于测试数据如法炮制：

HCopy -T 1 -C .\config\config1 -S codete.scp

注 3：由于附带的压缩包已经包括了特征文件（在.\data\*\feature 下），本步骤不用执行。

应用 HTK 搭建语音拨号系统

2. 创建单音素 HMM 模型

涉及创建一系列单高斯单音素 HMM 的过程。

[step 6]一致初始法创建单音素模型

定义一个原始模型 proto：

文件名：proto

~o <VecSize> 39 <MFCC_0_D_A>

~h "proto"

<NumStates> 5

<State> 2

<Mean> 39

0.0 (x39)

<Variance> 39

1.0 (x39)

<State> 3

<Mean> 39

0.0 (x39)

<Variance> 39

1.0 (x39)

<State> 4

<Mean> 39

0.0 (x39)

<Variance> 39

1.0 (x39)

<TransP> 5

0.0 1.0 0.0 0.0 0.0

0.0 0.6 0.4 0.0 0.0

0.0 0.0 0.6 0.4 0.0

0.0 0.0 0.0 0.7 0.3

0.0 0.0 0.0 0.0 0.0

训练文件存于 train.scp 中，用全局均值和方差来初始化 HMM 模型的高斯参数：

HCompV -C .\config\config1 -f 0.01 -m -S train.scp -M .\hmms\hmm0 proto

注 4：也可以省掉-C 参数，只要 train.scp 里是特征文件列表，并且特征是 MFCC_0_D_A)

在目录 hmm0 下生成了更新后的 proto 和一个截至宏 vFloors。基于.\hmms\hmm0\下的两

个文件，手工制作主宏文件（Master Macro File）hmmdefs 和与 vFloors 相关的宏 macro，具

体制作过程见 HTK book，压缩包中有实例。

由于暂时不用 sp 模型，删去 monophones1 中的 sp，构成 monophones0 文件，重估参数：

HERest -C .\config\config1 -I .\labels\phones0.mlf -t 250.0 150.0 1000.0 -S train.scp

评论收藏

内容反馈

maker_zhc

2013-08-06

很好的文章谢谢上传
yangzhenya

2012-06-23

很好的学习材料，对于英语不是非常好的人来说，帮了大忙
lewistrong

2012-11-28

源代码很全，对学习有很大帮助，推荐下载。
woweikong

2013-05-12

初识htk时，帮助很大，可以练练手，熟悉环境
shanji030201

2013-06-08

很好很强大，我全都打印下来了。。为了更好的学习了解，

前往

页

shiwo45zy

粉丝: 9
资源: 8

教你如何用HTK搭建简单的语音拨号系统

应用HTK 搭建语音拨号系统

应用HTK搭建语音拨号系统（有说明文件和实例代码）

使用HTK实现语音识别的demo

HTK 语音识别最简单操作

基于HTK的语音拨号系统

HTK孤立词语音识别系统所有文件

HTK_语音拨号中文教程

htk.rar_HTK_HTK语音

HTK语音识别工具包使用说明

HTK语音开发包

HTK使用方法簡介 语音识别 ppt

HTK工具箱语音特征提取

基于HTK的连续语音识别技术研究

HTK.rar_HTK_HTK语音识别_htk matlab_win HTK

htk 语音识别 使用文档

HTK 使用教程，台湾繁体

HTK-samples-3.4.zip_HTK_HTK语音_htk pudn_htk-3.3_mfc HTK

python大作业 含爬虫、数据可视化、地图、报告、及源码（整和为一个文件）（2014-2020全国各地区原油加工量）.rar

仿真电路以及操作方法

【纯干货啊】华为IPD流程管理(完整版).pptx

可编程语言标准IEC61131-3中文版.pdf

OFDM完整仿真过程与教程.zip

信号与系统——保研复习资料.pdf

Landsat_WRS2.zip

最全的Visio形状/图形库

AxureRP9项目原型50套、案例20个、元件库1套.zip

北理工+成电+东南——通信/信号保研面试真题.pdf

最新资源

HTK使用方法簡介语音识别 ppt

htk 语音识别使用文档

python大作业含爬虫、数据可视化、地图、报告、及源码（整和为一个文件）（2014-2020全国各地区原油加工量）.rar