没有合适的资源?快使用搜索试试~ 我知道了~
唇读研究进展与展望.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 173 浏览量
2023-02-23
16:53:18
上传
评论
收藏 2.71MB DOCX 举报
温馨提示
试读
36页
唇读研究进展与展望.docx
资源推荐
资源详情
资源评论
语言是人类沟通交流的主要方式, 麦格克效应
[1]
表明, 人类在感知语言信息的过程中会
受到听觉和视觉的双重作用, 即音频和视频同时包含着语言信息. 因此, 根据信号源的不同
可以将语言感知任务分为语音识别(Audio speech recognition, ASR)、视觉语言识别(Visual
speech recognition, VSR) 以及音 − 视双模态融合识别(Audio-visual speech recognition,
AVSR). 其中, 视觉语言识别又称为唇读(Automatic lip reading, ALR). 如图 1 所示, 是指根
据说话者的嘴唇运动的视觉信息解码出其所说文本内容的任务. 虽然对语言感知任务来说,
音频信息包含的信息量更为丰富, 但 Potamianos 等
[2]
的研究表明, 利用视觉信息能够增强语
音识别的精确度和鲁棒性. 此外, 当音频信息受损或者音频信息不可用的情况下, 高效利用
视觉信息进行语言识别就变得至关重要
[1, 3]
. 唇读技术在诸多领域具有广泛的应用. 在语音
识别领域, 唇读技术可以用于辅助语音识别系统, 提高其在嘈杂环境等不利情况下的识别性
能; 在健康医疗领域, 据世界卫生组织最新数据
[4]
显示, 全世界有听力障碍相关疾病的人数
近几年有明显的上升趋势, 借助唇读技术能够有效辅助患有听力障碍的病人解决沟通交流
问题
[5]
; 在公共安全领域, 引入唇读技术生成唇语密码, 借助其难复制性和高动态特性有助
于活体检测
[6]
, 配合其他静态生物特征(指纹、人脸、虹膜等)识别技术能够进一步提高安防
系统的安全性和可靠性; 在智能人机交互领域, 唇读技术能够提高交互的多样性和鲁棒性等
[7]
; 在视觉合成领域, 利用唇读技术可以生成特定人物高分辨率讲话场景的视频
[8]
, 或者用
于合成高真实感的虚拟人物动画等. 此外, 唇读技术在军事情报、安全监控等领域也具有潜
在的应用价值.
图 1 唇读示意图
Fig. 1 Illustration of the lip reading task
下载: 全尺寸图片 幻灯片
自从 1976 年麦格克效应被发现之后, 国内外大量的学者展开了对唇读方法的研究. 在
近 40 年的研究过程中, 各种唇读方法层出不穷. 但不可避免的是, 由于早期视觉语言数据
集限定条件多、规模较小, 且唇读任务的影响因素较多难度较大, 这些方法在面向大规模识
别任务时的正确率较低. 近几年, 深度学习技术发展给计算机视觉、语音识别和自然语言处
理领域的诸多问题都带来突破性的进展. 同样地, 深度学习技术也为唇读研究注入了新的活
力, 开始吸引研究者的关注, 出现了一些基于深度学习的唇读新方法, 唇读问题也取得较大
的进展, 逐渐从限定条件的实验环境数据(限定词汇量、限定说话人、限定姿态等)走向现在
的非限定环境唇读研究, 即 Automatic lip reading in the wild
[9-10]
. 并且出现了很多新的研究和
应用, 比如基于语音的跨模态唇动视频生成
[11]
, 借助唇动视觉信息进行语音增强
[12]
、语音分
离
[13]
、语音合成
[14]
等. 在实际的唇读任务中, 由于视觉信号存在影响因素多、时间分辨率低
等问题, 目前的唇读方法暂未取得令人满意的结果. 以当前规模最大的视觉语言数据集
LSVSR
[15]
为例, 目前在该数据集上的识别性能最佳的唇读方法 V2P
[15]
, 其单词识别率也仅有
59.1 %, 远未达到实际应用需求. 但其识别能力远超人类唇读专家(单词识别率 13.6 %), 充
分表明自动唇读方法研究的重要性. 但不可否认的是, 该领域仍然存在许多困难和挑战未得
到很好的解决, 唇读方法距离实际应用仍然存在很大的差距.
鉴于自动唇读研究潜在的研究价值和应用价值, 以及深度学习技术在唇读问题上的显
著进展, 近期国内外研究者对唇读问题的关注呈上升趋势. 国外比较具有代表性的研究单位
主要有牛津大学、帝国理工学院、东安格利亚大学、Google Deepmind 研究团队、芬兰奥
卢大学、瑞士 Dalle Molle 人工智能研究所、三星美国研究院、亚利桑那州立大学等. 国内
研究单位包括中科院计算所、哈尔滨工业大学、大连理工大学等. 近期, 中科院联合牛津大
学、三星美国研究院以及帝国理工学院举办了第一届普通话的唇读竞赛
[16]
.
国内外已有不少学者对于唇读方法进行了综述, 其中代表性的工作有: 2004 年,
Potamianos 等
[17]
分别对唇部视觉前端特征提取方法、语音和视觉后端特征融合方法进行了
综述. 2014 年, Zhou 等
[18]
总结了视觉特征提取的三大问题, 即讲话者依赖性问题、头部姿态
变化问题以及时序特征提取问题, 以问题为导向总结整合了视觉特征提取的主流方法, 同时
也总结了语音和视觉特征动态融合方法. 2018 年, Fernandez-Lopez 等
[19]
以识别任务为导向对
视觉语言数据集进行了总结, 同时也介绍了唇读领域的传统方法和基于深度学习的方法. 但
是其侧重点更多在于已有的各种数据集, 以及各数据集下不同识别任务采用方法的分析和
总结, 对不同唇读方法之间的比较和分析还不够深入, 且他们的总结的方法大多数是 2018
年以前的. 国内关于唇读方法的综述总结还是比较早期的综述, 例如 2001 年姚鸿勋等
[20]
的
工作, 对于近几年内的方法, 特别是基于深度学习的唇读方法, 国内目前还没有系统全面的
总结. 为了促进唇读及其相关拓展领域的研究发展, 鼓励更多感兴趣的学者参与到该领域的
研究, 我们有必要对近期唇读相关研究成果进行归纳和总结. 为此, 本文系统地对唇读研究
进行了综述, 对唇读问题存在的困难和挑战进行了分析, 对近期唇读研究进展进行了梳理、
归纳、分析和总结, 在此基础上对唇读未来的研究方向进行了探讨.
本文剩余章节内容安排如下: 第 1 节从唇读问题的定义出发, 对目前唇读研究存在的
困难与挑战进行了分析和总结. 第 2 节首先介绍了唇读方法的通用框架结构, 然后分别从传
统方法和深度学习方法两方面对唇读的主流特征提取及分类方法的发展现状进行了梳理和
归类总结, 详细阐述了不同框架下代表性方法的动机、原理、优势与不足, 揭示了各种方法
之间的区别与联系. 第 3 节对当前视觉语言数据集以及不同数据集下方法性能的结果对比
进行了全面梳理和总结. 最后, 在第 4 节中探讨了唇读及其相关拓展领域的未来发展方向.
1. 唇读的难点与挑战
唇读, 是指根据说话者的嘴唇运动的视觉信息解码出其所说文本内容的任务. 在任务
性质上, 唇读与音频语音识别具有相似性, 但更具挑战性. 二者的主要差别在于视频和音频
数据源时空特性差异, 视觉信号的时间分辨率一般较低, 同时视觉信号的空间二维特性导致
其特征空间的冗余, 相关特征提取的难度较大. 综上所述, 唇读的影响因素较多, 很具挑战
性, 其主要难点与挑战总结如下.
1) 视觉歧义. 视觉歧义的实质是在发音过程中语言内容在其视觉表现上的歧义性. 如
图 2 (a)和 2 (b)所示, 视觉歧义主要有以下两种表现形式: a)不同发音具有相似甚至相同的视
觉特性. 比如英语中辅音音素/p/和/b/ (汉语中声母音素/p/和/b/) 视觉特性几乎相同, 因此在
不考虑上下文的前提下, 二者几乎难以区分. b)相同单词在不同上下文条件下发音不同导致
的视觉特性上的差异. 此外, 英语中的弱读、连读等发音规则也会导致视觉特性上的差异.
因此, 如何提升对于视觉歧义的鲁棒性是唇读技术面临的重要的难点之一.
图 2 唇读难点示例. (a)第一行为单词 place 的实例, 第二行为单词 please 的实例, 唇形变化
难以区分, 图片来自 GRID 数据集; (b)上下两行分别为单词 wind 在不同上下文环境下的不
同读法/wind/与/waind/实例, 唇形变化差异较大; (c)上下两行分别为两位说话人说同一个单
词 after 的实例, 唇形变化存在差异, 图片来自 LRS3-TED 数据集; (d)说话人在说话过程中
头部姿态实时变化实例. 上述对比实例均采用相同的视频时长和采样间隔.
Fig. 2 Challenging examples of lip reading. (a) The upper line is an instance of the word place,
the lower line is an instance of the word please; (b) The upper and lower lines are respectively
different pronunciation of word wind in different contexts; (c) The upper and lower lines
respectively tell the same word after, with big difference in lip motion; (d) An example of a real-
time change in the head posture of the speaker during the speech. The above comparison examples
all use the same video duration and sampling interval.
下载: 全尺寸图片 幻灯片
2) 讲话者依赖. 当前的唇读系统主要面向有限数目讲话者的识别, 而在实际应用中识
别对象可能是未知讲话者. 如图 2 (c)所示, 不同讲话者发音习惯、唇部区域图像特征存在
很大的差异, 图像区域内包含大量依赖于讲话者自身的信息, 这些信息对于唇读任务来说是
无用的
[21]
. 在视觉特征提取阶段如何提取不依赖于讲话者的视觉特征是唇读的一个挑战.
3) 姿态变化. 如图 2 (d)所示, 在实际情况下, 讲话者可能是侧面朝向相机, 甚至讲话
者也有可能在讲话过程姿态实时变化, 而讲话者的姿态变化会导致图像上唇部区域的明显
变化. 这一变化会对视觉特征提取产生很大的影响. 因此, 设计对于姿态变化具有鲁棒性的
特征提取方法也是不可或缺的.
4) 大规模连续唇语识别. 早期的唇读系统对于可识别的词汇规模进行了严格的限制
(数字、字母或有限数量的单词), 这不可避免地也限制了唇读系统的可用性. 而当下的任务
需求主要是面向大规模词汇量的连续语句识别, 相对于早期的识别任务来说难度显著提升,
开放性的词汇规模给唇读解码带来了巨大的挑战.
除了上述的难点与挑战外, 解码的实时性问题、说话者面部表情、语速、视频帧率、
视频时长、图像分辨率、环境条件如光照条件、背景条件、图像噪声等因素对于唇读也有
很大的影响.
2. 唇读方法研究进展
2.1 唇读的流程框架
唇读按照识别任务的不同, 总体上可以分为两类: 1)有限类别(数字、字母、单词或短
语)的孤立识别任务, 其输入与输出是多对一的关系, 这类任务在唇读发展的早期比较普遍,
一方面是用于降低唇读问题的难度, 便于早期的唇读方法的研究; 另一方面其本身也有一定
的应用背景, 如说话人身份验证
[22-23]
、人机交互的简单指令识别(如车辆自动控制
[24-25]
)等; 2)
基于最小识别单元(音素
[26]
、视素
[27-29]
、字符或单词)的连续识别任务. 输入与输出是多对多
的关系, 这类任务更符合唇读的实际应用需求, 也是当前的研究重点.
唇读算法的通用框架结构如图 3 所示, 主要包括以下四个步骤.
图 3 唇读方法一般流程
Fig. 3 The general process of lip reading
下载: 全尺寸图片 幻灯片
人脸关键点检测与跟踪: 这一步骤主要目的是为了获得人脸关键特征点(眼角、鼻尖、
唇角等)在序列图像中的精确定位, 以便于后续精确地提取唇部区域图像, 关键点检测的精
度直接影响到后续唇部区域提取的准确性. 当前, 人脸关键点检测与跟踪同样是计算机视觉
剩余35页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3659
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功