标签同步解码算法及其在语音识别中的应用.pdf_解碼演算法在語音識別资源-CSDN文库

版权申诉

192 浏览量 2022-01-05 23:10:24 上传评论收藏 746KB PDF 举报

资源推荐

资源详情

资源评论

书书书

第



卷

第



期



年



月

计

算

机

学

报











收稿日期

：



；

在线出版日期

：



本课题得到国家重点研发计划

“

智能机器人

”

重点专项

（



）、

国家自然

科学基金项目

（



）、

江苏省基础研究计划

（



）

资助



陈哲怀

，

博士研究生

，

主要研究方向为语音识别

、

语音合成和深度学

习等



：



＠







郑文露

，

博士

，

研究助理

，

主要研究方向为语音识别



游永彬

，

硕士

，

研究助理

，

主要研究方向为

语音识别



钱彦旻

（

通信作者

），

博士

，

副教授

，

中国计算机学会

（



）

会员

，

主要研究方向为语音识别

、

语音理解及机器学习等



：









＠







俞

凯

（

通信作者

），

博士

，

教授

，

中国计算机学会

（



）

会员

，

主要研究领域为认知型对话系统

、

语音合成

、

识

别

、

理解及机器学习等



：







＠







标签同步解码算法及其在语音识别中的应用

陈哲怀



），



）

郑文露



）

游永彬



）

钱彦旻



），



）

俞

凯



），



）



）

（

上海交通大学智能交互与认知工程上海高校重点实验室

上海



）



）

（

上海交通大学计算机科学与工程系智能语音实验室

上海



）



）

（

上海交通大学苏州人工智能研究院

江苏苏州



）



）

（

苏州思必驰信息科技有限公司

江苏苏州



）

摘

要

自动语音识别

（











，



）

等序列标注任务的一个显著特点是其对相邻帧的时

序序列关联性建模



用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型

（



，



）

和连接时序模型

（







，



）



针对这些模型

，

当前主流的推理方法是帧层

面的维特比束搜索算法

，

该算法复杂度很高

，

限制了语音识别的广泛应用



深度学习的发展使得更强的上下文和历

史建模成为可能



通过引入



单元

，

端到端建模系统能够直接预测标签在给定特征下的后验概率



该文系统地

提出了一系列方法

，

通过使用高效的



结构和后处理方法

，

使得搜索解码过程从逐帧同步变为标签同步



该系

列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证



结果表明

，

在



数据集上

，

不损失性能

的前提下

，

实验取得了



～



倍的加速



该文同时研究了搜索空间

、

候选序列剪枝

、

转移模型

、

降帧率等对加速比的

影响

，

并在所有情况下取得一致性加速



关键词

自动语音识别

；

隐马尔可夫模型

；

连接时序模型

；

逐帧同步解码

；

标签同步解码

；

可变帧率

；

剪枝

中图法分类号



犇犗犐

号



／



犔犪犫犲犾犛

狔

狀犮犺狉狅狀狅狌狊犇犲犮狅犱犻狀

犵

犳狅狉犛

狆

犲犲犮犺犚犲犮狅

犵

狀犻狋犻狅狀





），



）





）









）





），



）





），



）



）

（

犓犲

狔

犔犪犫狅狉犪狋狅狉

狔

狅

犳

犛犺犪狀

犵

犺犪犻犈犱狌犮犪狋犻狅狀犆狅犿犿犻狊狊犻狅狀

犳

狅狉犐狀狋犲犾犾犻

犵

犲狀狋犐狀狋犲狉犪犮狋犻狅狀犪狀犱犆狅

犵

狀犻狋犻狏犲犈狀

犵

犻狀犲犲狉犻狀

犵

，

犛犺犪狀

犵

犺犪犻



）



）

（

犛

狆

犲犲犮犺犔犪犫

，

犇犲

狆

犪狉狋犿犲狀狋狅

犳

犆狅犿

狆

狌狋犲狉犛犮犻犲狀犮犲犪狀犱犈狀

犵

犻狀犲犲狉犻狀

犵

，

犛犺犪狀

犵

犺犪犻犑犻犪狅犜狅狀

犵

犝狀犻狏犲狉狊犻狋

狔

，

犛犺犪狀

犵

犺犪犻



）



）

（

犛狌狕犺狅狌犐狀狊狋犻狋狌狋犲狅

犳

犃狉狋犻

犳

犻犮犻犪犾犐狀狋犲犾犾犻

犵

犲狀犮犲

，

犛犺犪狀

犵

犺犪犻犑犻犪狅犜狅狀

犵

犝狀犻狏犲狉狊犻狋

狔

，

犛狌狕犺狅狌

，

犑犻犪狀

犵

狊狌



）



）

（

犃犐犛

狆

犲犲犮犺犔狋犱

．

，

犛狌狕犺狅狌

，

犑犻犪狀

犵

狊狌



）

犃犫狊狋狉犪犮狋

































（



）

































，



















，





































，





，































（



）

















，

































，



























































，







（



）





















（



）

















，





















，







，



（



）















，





















，

















，























（



）





















































，























































：（



）







（



）



，







，



































































，

















































，







：（



）











































（



）







































（



）









（



）







































，













，













犓犲

狔

狑狅狉犱狊











；



；







；









；









；



；













１

引

言

序列标注问题是指一类将给定的数据序列转化

为标签序列的任务

［



］

，

如自动语音识别

（













，



）

和手写体识别等



区别于

传统模式识别问题的是

，

序列标注任务中

，

给定样

本的各数据点不符合独立同分布

（













，



）

假设



该类问题的一个

显著特点在于

，

特征向量序列具有可变长性

，

如



中

，

由说话人语速变化所导致的语音信号时长的

不同



为了对上述时序特征进行建模

，

人们提出了序列

模型



根据其建模过程

，

序列模型可以分为以下两类

：

（



）

生成式序列模型

（







，



），

如隐马尔可夫模型

（



，



）；（



）

判别式序列模型

（









，



），

如连接时序模型

（









，



）

等



对于



，

在序

列鉴别性训练时

，

需要在序列层面使用贝叶斯定理

，

从条件似然度推导出序列后验概率

；

而



则可

以直接推导和优化序列后验概率



通常来说

，

出于以下原因

，



和



被分解

为帧层面的训练准则

：（



）

为了更加高效地发挥帧

层面分类器的建模效果

，

如混合高斯模型

（





，



）

［



］

和深度神经网络

（







，



）

［



］

；（



）

为了减轻模型的稀

疏性

，

以及通过将简单模型分解为多个组分来增强

模型的泛化能力

，

例如



中将模型分解为声学模

型

、

字典和语言模型等

；（



）

未经序列分解的模型需



计

算

机

学

报



年

要在推理前得到整个序列信息再进行后续处理

，

这

将给解码过程造成严重的运行延时



本文提出的序

列标注方法即是基于这样的模型

［



］

①



在推理阶段

，

为了找到与输入特征最为匹配的

标签序列

，

搜索过程需要将声学模型

，

语言模型和字

典等结合起来



这一过程是通过在每帧使用基于束

剪枝的维特比算法来实现的

［



］

，

称为帧同步解码

（









，



）



在该框架中

，

我们将特征帧的数量和语句长度的比值定义为特征

速率

，

将标签输出数量与语句长度的比值定义为标

注速率

，

将解码的帧数与语句长度的比值定义为解

码速率



那么

，

在帧同步解码中

，

上述三个速率均

相等



帧同步解码虽然已被广泛使用

，

但仍存在一些

缺点

：（



）

这是一个等间隔搜索算法

，

在处理可变长

序列时较为低效

；（



）

由于序列被分解为帧来作为

特征序列

，

模型的粒度变小

，

导致搜索空间很大



如



中

，

词语历史

、

音素序列以及



状态之间

的关联性通常以加权有限状态机

（











，



）

进行表示

（

通常称为



［



］

搜索空间

）



由于由多个庞大知识源共同组

成

，

因此组成该搜索空间的状态机最终将达到百亿

条边

；（



）

在每帧进行贪心束剪枝通常很难兼顾搜

索效率和搜索误差



近来

，

神经网络的发展使得更强的上下文和历

史建模效果成为可能

［



］



同时

，

更多的标注数据也

进一步缓解了模型的稀疏性和泛化问题



这些进展

使得研究人员们有可能在更大的模型粒度上从帧到

整个序列层面上

［



，



］

进行序列分解

，

如



等

人报道的一个基于单词粒度深度学习的声学模

型

［



］

，

在



小时标注数据上的表现优于较小粒

度的模型



在这些研究中

，

标注速率小于特征速率

，

但解码速率仍然等于特征速率



本文提出将特征层面的搜索过程改变为标签层

面

，

即搜索空间是由不同历史的标签组成的

，

使得解

码速率等于标注速率

，

从而小于特征速率



具体来

说

，

在标签推理阶段

，

对帧层面声学模型的输出增加

一步后处理过程

：（



）

判断当前帧是否存在标签输

出

；（



）

若有

，

执行搜索过程

；

若无

，

则丢弃标签输

出



因此该后处理过程可被看作是每个输出标签概

率计算的近似



与传统方法相比

，

该方法的优势是搜

索空间更小

，

且搜索过程被大大加速



在之前的工作中

，

本文作者曾提出了音素同步

解码

［



］

，

与之相比

，

本文的主要贡献和创新点是

：

（



）

提出了一个可被用于不同序列模型中序列标注

任务的通用解码框架和相应算法

；（



）

研究并讨论

了



单元的作用以及在该加速框架中



的

设计原则

；（



）

同时研究了搜索空间

、

候选序列剪

枝

、

转移模型

、

降帧率等对加速比的影响

，

并在所有

情况下取得一致性加速



本文第



节将首先对语音识别解码算法的研究

现状进行简要介绍和分析

，

其中



节

，

作者将对序

列标注问题进行简要综述

，

并对比两种序列模型

———



和



；



节中将介绍传统逐帧同步解码的

推理框架



接着

，

在第



节和第



节

，

本文将提出标签

同步解码算法并对其应用进行介绍

；

第



节将给出实

验和分析结果的描述

；

最后第



节为本文结论



２

语音识别解码算法研究现状分析

２１

序列标注与序列模型



序列标注

序列标注包括所有将数据特征序列转化为标签

序列的任务

［



］

，

本节以



为例进行简要介绍



在

训练阶段

，

一组带有已知标签的输入特征被提供给

系统进行模型构建

；

而测试阶段则基于特征序列和

其他知识源

，

如语言模型和字典

，

进行模型推理



序列标注问题与传统模式识别的区别在于以下

两个方面

：

（



）

序列内数据的相关性



无论是特征序列

，

还

是标签序列

，

序列中各数据点均不符合独立同分布

（



）

假设



中

，

特征序列是由声道的连续运

动而产生的



而标签序列则受到句法和语法规则

、

字

典以及语言模型的约束



因此

，

特征和标签均为强相

关序列



（



）

标签与特征序列之间的相关性



中

，

特

征和标签之间的对齐方式是未知的

，

标签序列总是

短于特征序列

，

即其主要问题在于由语速变化等导

致的特征序列的可变长性



这就要求序列模型能够

同时确定输出标签的位置和内容





序列模型

：



与



为了对上述序列相关性这一特征进行建模

，

人

们提出了序列模型



根据其建模过程

，

序列模型可被

分为生成式序列模型

（



）

和判别式序列模型

（



）







期陈哲怀等

：

标签同步解码算法及其在语音识别中的应用

①

标签同步解码算法及其在语音识别中的应用.pdf

基于递归神经网络的语音识别快速解码算法.pdf

VC与Labview、Matlab编程论文资料[2].rar

VC与Labview、Matlab编程论文资料[4].rar

VC与Labview、Matlab编程论文资料

加扰 论文 .rar

JAVA上百实例源码以及开源项目

JAVA上百实例源码以及开源项目源代码

vc++ 应用源码包_1

vc++ 应用源码包_2

vc++ 应用源码包_6

vc++ 应用源码包_5

vc++ 应用源码包_3

2019‘NSFC(Endnote-style).ens

zotero GB/T 7714-2005 毕业论文参考文献 中国引文样式 完整修改版.csl文

《遥感学报》参考文献Nednote格式.rar

基于INCA的纯电动汽车VCU标定方法.pdf

基于python的豆瓣电影数据采集与分析可视化.pdf

网站自动下载论文，在线预览论文，自动生成pdf插件，实现论文免费下载

基于PLC的BP神经网络PID控制算法实现.pdf

GB7714-2015参考文献格式，可完美解决中英混排

GBT7714-2005NLang.bst样式文件

endnote X9 中科院正版.zip

Endnote参考文献全称和对应缩写表（包含万能16559种和工程类10068种）

小卫星多普勒频偏MATLAB仿真程序及参考文献

Elsevier Style.nes

计算机网络课程设计，组建校园局域网

Chinese Std GBT7714 (numeric) Copy.ens

Endnote适用的毕业论文参考文献格式

EndNote20引文导出格式 中文期刊参考文献 国标GB/T7714

最新资源

加扰论文 .rar

zotero GB/T 7714-2005 毕业论文参考文献中国引文样式完整修改版.csl文

EndNote20引文导出格式中文期刊参考文献国标GB/T7714