1
手写体汉字识别研究综述
手写体识别小组
厦门大学软件学院软件工程系计算机软件与理论专业,厦门福建 361005
摘 要 手写体汉字识别的研究分为脱机和联机两个方向。本文在联机识别的处理阶段,对统计语言模
型、词网络和规则、后处理做了简要介绍,对脱机识别在预处理、特征提取、分类识别及后处理四个阶段
主要采用的方法做了简要介绍。最后根据目前的研究状况,指出今后研究的发展方向。
关键词:汉字识别 脱机识别 联机识别
Research of Handwritten Chinese Character Recognition
Group of Handwritten Recognition
Dept. of software University
,
Xiamen Fujian 361005e
,
China
Abstract: Handwritten Chinese character recognition is divided into off-line aspect and on-line aspect. This
paper surveys the main techniques in on-line handwritten Chinese character recognition: linguistic models, word
lattice formation and post processing. Besides, the paper surveys the main processing in four phases:
pre-processing, feature extracting, classification and post-processing. According to current research status, some
useful research orientations are proposed.
Key words: Chinese character recognition off-line recognition on-line recognition
0 引言
手写体识别一直是模式识别研究领域的难点,
而手写体汉字的自身提点给手写体汉字的识别带
来诸多不利影响。这些特点
[1]
包括:
① 汉字的样本集类别多而且样本数量巨大;
② 样本类别间的差距不平均,有些类别问的
差别很大,而有些类别间的差别极其细微;
③ 不同的书写者书写的汉字样本风格千差万
别,下笔轻重不同,笔划粗细不同,样本的大小、
旋转方向、倾斜角度不统一,有此字写得偏左、偏
右、偏上或偏下等。
手写体汉字识别可以分为联机识别和脱机识
别两种。从技术上讲,手写体汉字识别囊括了模式
识别领域的所有典型问题,如:特征选择、分类器
以及训练样本集等,尤其是脱机手写体汉字识别由
于缺少笔划和笔顺信息,因此识别难度大于联机手
写体识别。总体上,两种汉字识别技术虽然采用的
识别技术不同,使用场合不同,但是同样拥有广阔
的应用前景。
下面就以处理流程上的顺序,分别介绍联机和
脱机手写体汉字识别的方法。
1 联机手写体汉字识别
联机手写输入是一种良好的人机通信方式,具
有简捷、自然的特点。联机手写体汉字识别一直是
智能计算机接口的研究重点。典型的联机手写体汉
字识别系统一般由两个部件
[2]
组成:前端识别器和
语言解码器。前端识别器根据联机输入的手写体汉
字的特征生成带有概率(可信度)的候选汉字矢量
序列; 语言解码器应用语言模型对前端识别器生
成的候选汉字矢量序列进一步择优解码。语言解码
器的语言模型一般可分为基于统计和基于规则两
种主流方法。 基于统计的 Markov 语言模型适合处
理非受限域大规模真实文本,在语音识别、文字识
别和文本校对等领域有着广泛的应用,但由于计算
机的时间和空间的局限性,只能建立低阶 Markov
模型,这样仅能处理语言的近邻约束关系,不能处
理远距离的语言约束关系和语言递归现象;基于规
则的语言模型适合处理受限域文本,能处理远距离
语言约束关系和语言递归现象,但不适合处理大规
模开放语料,难以反映复杂多变的语言现象。因此
统计语言模型和规则文法两者有各自的优点和缺
点,同时又存在着较强的互补性。因此许多研究者
把两者捆绑起来形成一个混合语言模型。统计语言
模型和规则文法结合的方法一般有两种,一种方式
为把统计信息加入到规则文法中,形成概率文法;
另一种方式为通过规则量化把规则加入到统计模
型。本文采用规则量化方法来捆绑这两种语言模
型,并采用词网格技术把 Markov 统计语言模型和
量化的语言规则集成在一个联机手写体汉字识别