没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
书书书
第
卷
第
期
年
月
计
算
机
学
报
收稿日期
:
;
在线出版日期
:
本课题得到国家重点研发计划
“
智能机器人
”
重点专项
(
)、
国家自然
科学基金项目
(
)、
江苏省基础研究计划
(
)
资助
陈哲怀
,
博士研究生
,
主要研究方向为语音识别
、
语音合成和深度学
习等
:
@
郑文露
,
博士
,
研究助理
,
主要研究方向为语音识别
游永彬
,
硕士
,
研究助理
,
主要研究方向为
语音识别
钱彦旻
(
通信作者
),
博士
,
副教授
,
中国计算机学会
(
)
会员
,
主要研究方向为语音识别
、
语音理解及机器学习等
:
@
俞
凯
(
通信作者
),
博士
,
教授
,
中国计算机学会
(
)
会员
,
主要研究领域为认知型对话系统
、
语音合成
、
识
别
、
理解及机器学习等
:
@
标签同步解码算法及其在语音识别中的应用
陈哲怀
),
)
郑文露
)
游永彬
)
钱彦旻
),
)
俞
凯
),
)
)
(
上海交通大学智能交互与认知工程上海高校重点实验室
上海
)
)
(
上海交通大学计算机科学与工程系智能语音实验室
上海
)
)
(
上海交通大学苏州人工智能研究院
江苏苏州
)
)
(
苏州思必驰信息科技有限公司
江苏苏州
)
摘
要
自动语音识别
(
,
)
等序列标注任务的一个显著特点是其对相邻帧的时
序序列关联性建模
用于对相邻帧进行时序建模的主流序列模型包括隐马尔可夫模型
(
,
)
和连接时序模型
(
,
)
针对这些模型
,
当前主流的推理方法是帧层
面的维特比束搜索算法
,
该算法复杂度很高
,
限制了语音识别的广泛应用
深度学习的发展使得更强的上下文和历
史建模成为可能
通过引入
单元
,
端到端建模系统能够直接预测标签在给定特征下的后验概率
该文系统地
提出了一系列方法
,
通过使用高效的
结构和后处理方法
,
使得搜索解码过程从逐帧同步变为标签同步
该系
列通用方法在隐马尔可夫模型和连接时序模型上均得到了验证
结果表明
,
在
数据集上
,
不损失性能
的前提下
,
实验取得了
~
倍的加速
该文同时研究了搜索空间
、
候选序列剪枝
、
转移模型
、
降帧率等对加速比的
影响
,
并在所有情况下取得一致性加速
关键词
自动语音识别
;
隐马尔可夫模型
;
连接时序模型
;
逐帧同步解码
;
标签同步解码
;
可变帧率
;
剪枝
中图法分类号
犇犗犐
号
/
犔犪犫犲犾犛
狔
狀犮犺狉狅狀狅狌狊犇犲犮狅犱犻狀
犵
犳狅狉犛
狆
犲犲犮犺犚犲犮狅
犵
狀犻狋犻狅狀
),
)
)
)
),
)
),
)
)
(
犓犲
狔
犔犪犫狅狉犪狋狅狉
狔
狅
犳
犛犺犪狀
犵
犺犪犻犈犱狌犮犪狋犻狅狀犆狅犿犿犻狊狊犻狅狀
犳
狅狉犐狀狋犲犾犾犻
犵
犲狀狋犐狀狋犲狉犪犮狋犻狅狀犪狀犱犆狅
犵
狀犻狋犻狏犲犈狀
犵
犻狀犲犲狉犻狀
犵
,
犛犺犪狀
犵
犺犪犻
)
)
(
犛
狆
犲犲犮犺犔犪犫
,
犇犲
狆
犪狉狋犿犲狀狋狅
犳
犆狅犿
狆
狌狋犲狉犛犮犻犲狀犮犲犪狀犱犈狀
犵
犻狀犲犲狉犻狀
犵
,
犛犺犪狀
犵
犺犪犻犑犻犪狅犜狅狀
犵
犝狀犻狏犲狉狊犻狋
狔
,
犛犺犪狀
犵
犺犪犻
)
)
(
犛狌狕犺狅狌犐狀狊狋犻狋狌狋犲狅
犳
犃狉狋犻
犳
犻犮犻犪犾犐狀狋犲犾犾犻
犵
犲狀犮犲
,
犛犺犪狀
犵
犺犪犻犑犻犪狅犜狅狀
犵
犝狀犻狏犲狉狊犻狋
狔
,
犛狌狕犺狅狌
,
犑犻犪狀
犵
狊狌
)
)
(
犃犐犛
狆
犲犲犮犺犔狋犱
.
,
犛狌狕犺狅狌
,
犑犻犪狀
犵
狊狌
)
犃犫狊狋狉犪犮狋
(
)
,
,
,
,
(
)
,
,
,
(
)
(
)
,
,
,
(
)
,
,
,
(
)
,
:(
)
(
)
,
,
,
,
:(
)
(
)
(
)
(
)
,
,
犓犲
狔
狑狅狉犱狊
;
;
;
;
;
;
1
引
言
序列标注问题是指一类将给定的数据序列转化
为标签序列的任务
[
]
,
如自动语音识别
(
,
)
和手写体识别等
区别于
传统模式识别问题的是
,
序列标注任务中
,
给定样
本的各数据点不符合独立同分布
(
,
)
假设
该类问题的一个
显著特点在于
,
特征向量序列具有可变长性
,
如
中
,
由说话人语速变化所导致的语音信号时长的
不同
为了对上述时序特征进行建模
,
人们提出了序列
模型
根据其建模过程
,
序列模型可以分为以下两类
:
(
)
生成式序列模型
(
,
),
如隐马尔可夫模型
(
,
);(
)
判别式序列模型
(
,
),
如连接时序模型
(
,
)
等
对于
,
在序
列鉴别性训练时
,
需要在序列层面使用贝叶斯定理
,
从条件似然度推导出序列后验概率
;
而
则可
以直接推导和优化序列后验概率
通常来说
,
出于以下原因
,
和
被分解
为帧层面的训练准则
:(
)
为了更加高效地发挥帧
层面分类器的建模效果
,
如混合高斯模型
(
,
)
[
]
和深度神经网络
(
,
)
[
]
;(
)
为了减轻模型的稀
疏性
,
以及通过将简单模型分解为多个组分来增强
模型的泛化能力
,
例如
中将模型分解为声学模
型
、
字典和语言模型等
;(
)
未经序列分解的模型需
计
算
机
学
报
年
要在推理前得到整个序列信息再进行后续处理
,
这
将给解码过程造成严重的运行延时
本文提出的序
列标注方法即是基于这样的模型
[
]
①
在推理阶段
,
为了找到与输入特征最为匹配的
标签序列
,
搜索过程需要将声学模型
,
语言模型和字
典等结合起来
这一过程是通过在每帧使用基于束
剪枝的维特比算法来实现的
[
]
,
称为帧同步解码
(
,
)
在该框架中
,
我们将特征帧的数量和语句长度的比值定义为特征
速率
,
将标签输出数量与语句长度的比值定义为标
注速率
,
将解码的帧数与语句长度的比值定义为解
码速率
那么
,
在帧同步解码中
,
上述三个速率均
相等
帧同步解码虽然已被广泛使用
,
但仍存在一些
缺点
:(
)
这是一个等间隔搜索算法
,
在处理可变长
序列时较为低效
;(
)
由于序列被分解为帧来作为
特征序列
,
模型的粒度变小
,
导致搜索空间很大
如
中
,
词语历史
、
音素序列以及
状态之间
的关联性通常以加权有限状态机
(
,
)
进行表示
(
通常称为
[
]
搜索空间
)
由于由多个庞大知识源共同组
成
,
因此组成该搜索空间的状态机最终将达到百亿
条边
;(
)
在每帧进行贪心束剪枝通常很难兼顾搜
索效率和搜索误差
近来
,
神经网络的发展使得更强的上下文和历
史建模效果成为可能
[
]
同时
,
更多的标注数据也
进一步缓解了模型的稀疏性和泛化问题
这些进展
使得研究人员们有可能在更大的模型粒度上从帧到
整个序列层面上
[
,
]
进行序列分解
,
如
等
人报道的一个基于单词粒度深度学习的声学模
型
[
]
,
在
小时标注数据上的表现优于较小粒
度的模型
在这些研究中
,
标注速率小于特征速率
,
但解码速率仍然等于特征速率
本文提出将特征层面的搜索过程改变为标签层
面
,
即搜索空间是由不同历史的标签组成的
,
使得解
码速率等于标注速率
,
从而小于特征速率
具体来
说
,
在标签推理阶段
,
对帧层面声学模型的输出增加
一步后处理过程
:(
)
判断当前帧是否存在标签输
出
;(
)
若有
,
执行搜索过程
;
若无
,
则丢弃标签输
出
因此该后处理过程可被看作是每个输出标签概
率计算的近似
与传统方法相比
,
该方法的优势是搜
索空间更小
,
且搜索过程被大大加速
在之前的工作中
,
本文作者曾提出了音素同步
解码
[
]
,
与之相比
,
本文的主要贡献和创新点是
:
(
)
提出了一个可被用于不同序列模型中序列标注
任务的通用解码框架和相应算法
;(
)
研究并讨论
了
单元的作用以及在该加速框架中
的
设计原则
;(
)
同时研究了搜索空间
、
候选序列剪
枝
、
转移模型
、
降帧率等对加速比的影响
,
并在所有
情况下取得一致性加速
本文第
节将首先对语音识别解码算法的研究
现状进行简要介绍和分析
,
其中
节
,
作者将对序
列标注问题进行简要综述
,
并对比两种序列模型
———
和
;
节中将介绍传统逐帧同步解码的
推理框架
接着
,
在第
节和第
节
,
本文将提出标签
同步解码算法并对其应用进行介绍
;
第
节将给出实
验和分析结果的描述
;
最后第
节为本文结论
2
语音识别解码算法研究现状分析
21
序列标注与序列模型
序列标注
序列标注包括所有将数据特征序列转化为标签
序列的任务
[
]
,
本节以
为例进行简要介绍
在
训练阶段
,
一组带有已知标签的输入特征被提供给
系统进行模型构建
;
而测试阶段则基于特征序列和
其他知识源
,
如语言模型和字典
,
进行模型推理
序列标注问题与传统模式识别的区别在于以下
两个方面
:
(
)
序列内数据的相关性
无论是特征序列
,
还
是标签序列
,
序列中各数据点均不符合独立同分布
(
)
假设
中
,
特征序列是由声道的连续运
动而产生的
而标签序列则受到句法和语法规则
、
字
典以及语言模型的约束
因此
,
特征和标签均为强相
关序列
(
)
标签与特征序列之间的相关性
中
,
特
征和标签之间的对齐方式是未知的
,
标签序列总是
短于特征序列
,
即其主要问题在于由语速变化等导
致的特征序列的可变长性
这就要求序列模型能够
同时确定输出标签的位置和内容
序列模型
:
与
为了对上述序列相关性这一特征进行建模
,
人
们提出了序列模型
根据其建模过程
,
序列模型可被
分为生成式序列模型
(
)
和判别式序列模型
(
)
期陈哲怀等
:
标签同步解码算法及其在语音识别中的应用
①
最近提出的编码器
解码器模型
(
)
[
]
则是
直接在序列层面进行处理
,
而不进行序列分解
,
因此不在本
文讨论之列
本文的一些初步扩展工作可参见文献
[
]
剩余12页未读,继续阅读
资源评论
结冰架构
- 粉丝: 806
- 资源: 28万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功