doi:
檶檶檶檶檶
檶
檶檶檶檶檶
檶
殞
殞
殞
殞
10. 3969 /j. issn. 1001 - 358X. 2011. 04. 018
计
算机应用
语音技术在应急保障标图系统中的应用
苗
天宝
1
,
李
克恭
2
( 1.
甘
肃省测绘局
,
甘肃 兰州
730000; 2.
甘肃省基础地理信息中心
,
甘肃 兰州
730000)
摘要
:
文中结合微软推出的
Speech SDK
语音软件包
,
首先介绍了如何将该技术应用于应急保障标图
系统
,
实现符号的语音输入和位置信息的语音标绘
;
其次对采用
VB
语言环境实现语音识别的编程
方法进行了详细介绍
,
最后给出了开发的实例
。
关键词
:
应急保障标图
; Speech SDK;
语音识别
; VB
编程
;
中图分类号
:P209
文献标识码
:B
文章编号
:1001 - 358X(2011)04 - 0052 - 04
随着计算机技术的快速发展和应用领域的不断
扩大
,
在与计算机的信息交流中
,
人们越来越需要一
种更方便
、
更自然的方式
。
而语言是人类交流信息
最自然
、
最有效和最方便的手段
。
让计算机听懂人
们说的话
,
从而让人们与计算机用语言方便自然地
进行交流
,
一直是近半个世纪以来
,
语音识别技术追
求的目标
。
早在
20
世纪
70
年代
,
国外就开始了语
音技术的研究
,
为了适应这一技术实际应用的需要
,
微软也推出了
Speech SDK
语音工具包
,
提供了一个
语音识别和合成的二次开发平台
,
可以识别多种语
言
,
为人们与计算机用语言进行交流提供了坚实的
技术支持
,
人们可以利用它们在自己开发的软件里
嵌入语音识别和合成功能
,
从而使用户可以用声音
来代替原来使用键盘
、
鼠标完成的操作
。
作为一门
技术在我们开发的应急保障标图系统中得到了应
用
,
本文就语音技术在系统中如何实现应用进行论
述
。
1
微软
Speech SDK
介绍
微软的
Speech SDK
语音应用开发工具包含了
语音应用设计接口
( SAPI) 、
微软连续语音识别引擎
( MCSR)
以及微软语音合成引擎
( TTS)
等
。SAPI
只
提供了一系列接口
,
需要语音引擎的支持才能运行
,
SAPI
中包括了对于底层控制和高度适应性的直接语
音管理
、
训练向导
、
事件
、
语法编译
、
资源
、
语音识别
( SR)
管理以及语音合成
( TTS)
管理等强大的设计接
口
。Speech SDK
以
COM
形式提供了两个接口
:
应用
程序编程接口
( API)
和设备驱动接口
( DDI)
,
其
结构
图如图
1
所示
。
应用程序通过
API
层和
SAPI
通信
,
语音引擎则通过
DDI
层和
SAPI
进行交互
。
通过使
用这些
API,
可以加快在语音识别或语音合成方面应
用程序的开发进度
。
图
1 Speech SDK
结
构图
Speech SDK
语
音识别功能主要由
ISpRecognizer
、ISpRecoContext 、ISpRecoGrammar 、ISpRecoResult
四
个接口实现
。
( 1) ISpRecognizer
接口
语音识别引擎接口
ISpRecognizer
用于创建语音
识别引擎的实例
,
每个
ISpRecognizer
接口代表
CSR
引擎
,CSR
引擎又有共享语音识别引擎和进程内语
音识别引擎两种实现方式
,
进程内语音识别引擎被
创建在与应用程序同一个进程里
,
因此只能被这个
应用程序使用
,
而共享的引擎可以供多个应用程序
共同使用
。
( 2) ISpRecoC ontext
接口
语音识别上下文接口
ISpRecoContext
能关注不
同的语音识别事件
,
装载或卸载识别时使用的语法
文件
。
( 3) ISpRecoGrammar
接口
语音识别语法接口
ISpRecoGrammar
用于载入
、
激活
、
钝化识别语法
。
语法中定义了用户期望引擎
识别的单词
、
短语和句子
。
语音识别引擎的工作模
式分为听写模式和命令控制模式
,
语音识别语法对
应地分为听写语法和命令控制语法
,
听写语法工作
于听写模式
,
用于连续语音识别
,
用户一般无需对听
25
第
4
期
2011
年
8
月
矿 山 测 量
MINE SURVEYING
No. 4
Aug. 2011