在当前的计算机图形学和人机交互领域中,利用3D动画技术模拟人类面部表情和发音动作已经取得了长足的发展。特别是对于3D虚拟头像技术而言,它不仅能够展示外部可见的发音器官如唇部和下颌的运动,还能展示那些不易被察觉的内部发音器官如舌头、牙齿、软腭和鼻咽壁的运动。这些内部器官的可视化信息对于提升发音动作的可理解性至关重要。
本文主要探讨了通过融合气流信息,如何增强3D关节动画的可理解性。研究聚焦在普通话发音上,特别是那些对理解普通话十分关键的爆破音气流。文章中提到的爆破音气流(aspiration airflow)在区分易混淆的普通话辅音方面发挥着重要作用。研究者们提出了一种3D虚拟头像系统,该系统能够基于电磁发声器(EMA)发音数据和气流数据来创建发音和气流的动画。文章中对气流数据进行了定量分析,指出易混淆的普通话辅音可以通过发音期间的平均气流、峰值呼气气流以及气流持续时间来区分。在3D发音模型中融入气流模型,使得产生的气流动画与普通话发音器官的运动相一致。为了评估当前的3D发音和气流系统,设计了一项视听测试,其中使用最小对立词对来识别动画。测试结果表明,加入气流信息后,对动画的识别准确率从43.9%提高到了84.8%。
文章进一步解释了语音感知基于视听反馈似乎比仅使用听觉反馈更优越的原因,并指出除了可观察到的外部信息(如嘴唇、下颌)外,整合内部发音器官的视觉信息(如舌头、牙齿、软腭、鼻咽壁)越来越受到重视。研究表明,内部发音器官的信息能够改善语音理解、提高发音训练效果,甚至在语音治疗中也有帮助。文章提出的3D发音和气流系统不仅对增强语音动画的可理解性有贡献,而且在发音训练和语音治疗方面也可能具有实际应用价值。
值得一提的是,研究得到了中国国家自然科学基金的资助。该工作不仅为3D动画技术在语言学习和人机交互中的应用提供了新的思路,也为相关领域的研究者和技术开发者提供了实践指导和参考。整体而言,这项研究强调了在3D虚拟头像技术中整合内部和外部发音器官运动信息的重要性,并通过实际的实验数据证明了这种整合对于提升语音动画的可理解性和教育训练效果具有显著的作用。