唇读研究进展与展望.docx资源-CSDN文库

版权申诉

173 浏览量 2023-02-23 16:53:18 上传评论收藏 2.71MB DOCX 举报

资源推荐

资源详情

资源评论

语言是人类沟通交流的主要方式, 麦格克效应

[1]

表明, 人类在感知语言信息的过程中会

受到听觉和视觉的双重作用, 即音频和视频同时包含着语言信息. 因此, 根据信号源的不同

可以将语言感知任务分为语音识别(Audio speech recognition, ASR)、视觉语言识别(Visual

speech recognition, VSR) 以及音 − 视双模态融合识别(Audio-visual speech recognition,

AVSR). 其中, 视觉语言识别又称为唇读(Automatic lip reading, ALR). 如图 1 所示, 是指根

据说话者的嘴唇运动的视觉信息解码出其所说文本内容的任务. 虽然对语言感知任务来说,

音频信息包含的信息量更为丰富, 但 Potamianos 等

[2]

的研究表明, 利用视觉信息能够增强语

音识别的精确度和鲁棒性. 此外, 当音频信息受损或者音频信息不可用的情况下, 高效利用

视觉信息进行语言识别就变得至关重要

[1, 3]

. 唇读技术在诸多领域具有广泛的应用. 在语音

识别领域, 唇读技术可以用于辅助语音识别系统, 提高其在嘈杂环境等不利情况下的识别性

能; 在健康医疗领域, 据世界卫生组织最新数据

[4]

显示, 全世界有听力障碍相关疾病的人数

近几年有明显的上升趋势, 借助唇读技术能够有效辅助患有听力障碍的病人解决沟通交流

问题

[5]

; 在公共安全领域, 引入唇读技术生成唇语密码, 借助其难复制性和高动态特性有助

于活体检测

[6]

, 配合其他静态生物特征(指纹、人脸、虹膜等)识别技术能够进一步提高安防

系统的安全性和可靠性; 在智能人机交互领域, 唇读技术能够提高交互的多样性和鲁棒性等

[7]

; 在视觉合成领域, 利用唇读技术可以生成特定人物高分辨率讲话场景的视频

[8]

, 或者用

于合成高真实感的虚拟人物动画等. 此外, 唇读技术在军事情报、安全监控等领域也具有潜

在的应用价值.

图 1 唇读示意图

Fig. 1 Illustration of the lip reading task

下载: 全尺寸图片幻灯片

自从 1976 年麦格克效应被发现之后, 国内外大量的学者展开了对唇读方法的研究. 在

近 40 年的研究过程中, 各种唇读方法层出不穷. 但不可避免的是, 由于早期视觉语言数据

集限定条件多、规模较小, 且唇读任务的影响因素较多难度较大, 这些方法在面向大规模识

别任务时的正确率较低. 近几年, 深度学习技术发展给计算机视觉、语音识别和自然语言处

理领域的诸多问题都带来突破性的进展. 同样地, 深度学习技术也为唇读研究注入了新的活

力, 开始吸引研究者的关注, 出现了一些基于深度学习的唇读新方法, 唇读问题也取得较大

的进展, 逐渐从限定条件的实验环境数据(限定词汇量、限定说话人、限定姿态等)走向现在

的非限定环境唇读研究, 即 Automatic lip reading in the wild

[9-10]

. 并且出现了很多新的研究和

应用, 比如基于语音的跨模态唇动视频生成

[11]

, 借助唇动视觉信息进行语音增强

[12]

、语音分

离

[13]

、语音合成

[14]

等. 在实际的唇读任务中, 由于视觉信号存在影响因素多、时间分辨率低

等问题, 目前的唇读方法暂未取得令人满意的结果. 以当前规模最大的视觉语言数据集

LSVSR

[15]

为例, 目前在该数据集上的识别性能最佳的唇读方法 V2P

[15]

, 其单词识别率也仅有

59.1 %, 远未达到实际应用需求. 但其识别能力远超人类唇读专家(单词识别率 13.6 %), 充

分表明自动唇读方法研究的重要性. 但不可否认的是, 该领域仍然存在许多困难和挑战未得

到很好的解决, 唇读方法距离实际应用仍然存在很大的差距.

鉴于自动唇读研究潜在的研究价值和应用价值, 以及深度学习技术在唇读问题上的显

著进展, 近期国内外研究者对唇读问题的关注呈上升趋势. 国外比较具有代表性的研究单位

主要有牛津大学、帝国理工学院、东安格利亚大学、Google Deepmind 研究团队、芬兰奥

卢大学、瑞士 Dalle Molle 人工智能研究所、三星美国研究院、亚利桑那州立大学等. 国内

研究单位包括中科院计算所、哈尔滨工业大学、大连理工大学等. 近期, 中科院联合牛津大

学、三星美国研究院以及帝国理工学院举办了第一届普通话的唇读竞赛

[16]

国内外已有不少学者对于唇读方法进行了综述, 其中代表性的工作有: 2004 年,

Potamianos 等

[17]

分别对唇部视觉前端特征提取方法、语音和视觉后端特征融合方法进行了

综述. 2014 年, Zhou 等

[18]

总结了视觉特征提取的三大问题, 即讲话者依赖性问题、头部姿态

变化问题以及时序特征提取问题, 以问题为导向总结整合了视觉特征提取的主流方法, 同时

也总结了语音和视觉特征动态融合方法. 2018 年, Fernandez-Lopez 等

[19]

以识别任务为导向对

视觉语言数据集进行了总结, 同时也介绍了唇读领域的传统方法和基于深度学习的方法. 但

是其侧重点更多在于已有的各种数据集, 以及各数据集下不同识别任务采用方法的分析和

总结, 对不同唇读方法之间的比较和分析还不够深入, 且他们的总结的方法大多数是 2018

年以前的. 国内关于唇读方法的综述总结还是比较早期的综述, 例如 2001 年姚鸿勋等

[20]

的

工作, 对于近几年内的方法, 特别是基于深度学习的唇读方法, 国内目前还没有系统全面的

总结. 为了促进唇读及其相关拓展领域的研究发展, 鼓励更多感兴趣的学者参与到该领域的

研究, 我们有必要对近期唇读相关研究成果进行归纳和总结. 为此, 本文系统地对唇读研究

进行了综述, 对唇读问题存在的困难和挑战进行了分析, 对近期唇读研究进展进行了梳理、

归纳、分析和总结, 在此基础上对唇读未来的研究方向进行了探讨.

本文剩余章节内容安排如下: 第 1 节从唇读问题的定义出发, 对目前唇读研究存在的

困难与挑战进行了分析和总结. 第 2 节首先介绍了唇读方法的通用框架结构, 然后分别从传

统方法和深度学习方法两方面对唇读的主流特征提取及分类方法的发展现状进行了梳理和

归类总结, 详细阐述了不同框架下代表性方法的动机、原理、优势与不足, 揭示了各种方法

之间的区别与联系. 第 3 节对当前视觉语言数据集以及不同数据集下方法性能的结果对比

进行了全面梳理和总结. 最后, 在第 4 节中探讨了唇读及其相关拓展领域的未来发展方向.

1. 唇读的难点与挑战

唇读, 是指根据说话者的嘴唇运动的视觉信息解码出其所说文本内容的任务. 在任务

性质上, 唇读与音频语音识别具有相似性, 但更具挑战性. 二者的主要差别在于视频和音频

数据源时空特性差异, 视觉信号的时间分辨率一般较低, 同时视觉信号的空间二维特性导致

其特征空间的冗余, 相关特征提取的难度较大. 综上所述, 唇读的影响因素较多, 很具挑战

性, 其主要难点与挑战总结如下.

1) 视觉歧义. 视觉歧义的实质是在发音过程中语言内容在其视觉表现上的歧义性. 如

图 2 (a)和 2 (b)所示, 视觉歧义主要有以下两种表现形式: a)不同发音具有相似甚至相同的视

觉特性. 比如英语中辅音音素/p/和/b/ (汉语中声母音素/p/和/b/) 视觉特性几乎相同, 因此在

不考虑上下文的前提下, 二者几乎难以区分. b)相同单词在不同上下文条件下发音不同导致

的视觉特性上的差异. 此外, 英语中的弱读、连读等发音规则也会导致视觉特性上的差异.

因此, 如何提升对于视觉歧义的鲁棒性是唇读技术面临的重要的难点之一.

剩余35页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3659
资源: 1万+

唇读研究进展与展望.docx

CAR_T细胞在肿瘤免疫治疗的研究进展和展望文献综述.docx

移动机器人长期自主环境适应研究进展和展望.docx

农业物联网研究进展与前景展望.docx

变压器故障诊断研究进展与展望.docx

聚丙烯高压直流电缆绝缘研究进展与展望.docx

眼动跟踪研究进展与展望.docx

碳基集成电路技术研究进展与展望.docx

中红外光纤激光技术研究进展与展望.docx

激光雷达点云树木建模研究进展与展望.docx

我国教育信息化研究进展及未来展望.docx

中国海洋无脊椎动物分类学与系统演化研究进展与展望.docx

基于投入产出理论的水资源研究进展及水资源管理展望.docx

雪崩灾害防治研究进展及展望.docx

水工混凝土结构抗震研究进展的回顾和展望.docx

软件定义多维光网络研究进展与展望.docx

场地土壤-地下水污染物多介质界面过程与调控研究进展与展望.docx

中国水资源优化配置研究的进展与展望.docx

无人机在南极科学研究的应用：进展与展望.docx

地球大数据支撑可持续发展目标协同与权衡研究：进展与展望.docx

2021-2022收藏资料杂交水稻种子生产技术研究进展及展望.docx

面向行人重识别的局部特征研究进展、挑战与展望.docx

ChatGPT的生成模型研究进展与展望.docx

中医舌象分割技术研究进展 方法、性能与展望.docx

自动向量化：近期进展与展望.docx

我国“互联网”现代农业进展与展望.docx

我国“互联网+”现代农业进展与展望.docx

工业铸件缺陷无损检测技术的应用进展与展望.docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

最新资源

中医舌象分割技术研究进展方法、性能与展望.docx