人机交互技术是计算机科学与人类行为学交叉领域的一个重要组成部分,主要研究如何设计和评估人与计算机之间的交互方式。第四章重点讲述了人机交互中的语音输入技术,这是新一代人机交互技术的一大亮点,因为它提供了更为自然和便捷的沟通方式。
语音输入技术依赖于语音识别,它将语音信号转化为文本或指令,使得用户无需物理接触设备就能进行操作。目前,大部分语音输入产品如IBM的ViaVoice,虽然受到口音和环境噪音的影响,但因其高输入速度(约每分钟150字)和高识别率(95%)而受到用户青睐。这些系统通常具有庞大的词汇库,允许用户添加自定义的专业术语,提高了使用效率。
语音识别技术的发展历程可以分为初期和中期两个阶段。在初期(1971年前),关键的技术突破包括动态时间规整(DTW)、线性预测技术(LPC)以及隐马尔可夫模型(HMM)。DTW使得不同长度的语音样本能在时间轴上对齐,从而提高匹配度;LPC通过线性组合过去语音抽样来逼近当前抽样,实现误差最小化;HMM则是利用概率模型更好地适应语音变化,提供更灵活的识别方式。
进入中期(1971年至1987年),DARPA的第一次语音识别系统研制计划推动了这一领域的进步。这一时期的代表性系统包括CMU的HEARSAY I和II,用于语音驱动的新闻检索;BBN公司的SPEECHLIS,服务于旅游经费预算管理;以及SDC的潜艇数据库管理系统,支持自然语言的问答交互。这些系统标志着从离散语音识别向连续语音识别的转变,并尝试处理更复杂的自然语言任务。
随着技术的不断演进,语音识别的准确性和实用性得到了显著提升,尤其是针对特定人和小词汇量的系统,识别率甚至超过了98%。这表明,语音识别已经成为人机交互中的关键工具,广泛应用于智能手机、智能家居、自动驾驶汽车等多个领域,极大地增强了人与计算机的互动体验。
未来,随着深度学习和人工智能的进步,语音识别将更加智能化,能够理解更复杂的语言结构和上下文,同时还能适应更多元化的用户需求和环境条件。这将进一步推动人机交互技术向着更加人性化和无缝连接的方向发展。