一
种基于背景细化的粘连数字 串的分离和识别方法
Zho ngkan
,
g Zheru C
煮hi W an Chi Siu.Peng ̄i Shi 3 /. Lu. , 一 . , ’
7一c 摘要 ‘
大多曼手写体粘连数字串的分割算法是基于对前景像素分布和图像中上下轮廓特征
的 分析 。 本 文提 出 一 种 新 的 基 于 背 号 区域 细 化 的 双 粘 连 数 -T-串的 分 割方 法。 本算 法首 先
确 定 背景 骨 架 上 若 干特 征 点 的 位 置 ,然 后 通 过 这 些 特 征 点 的 匹配 来 获 取 可 能 的 分 割 线
通过 判别 树 产 生 的 模糊 规 则,对 所 有 可 能 的 分 割 线 进 行 分 圾 。 最 后 .按 照 等级 的 高 低,利
用 优化 的最 近 邻 域 分 类 器 从 高 到低 对 分 割 线 进 行 测 试 ,直 至 {毛到 满 足 设 定 标 准 的 分 割 线
为止 。据 对 姜 国 国 g-科 学与技 术 研 究 所 (NIST)专 用 数 据 库 3中 的 字 符 样 本 的 处 理 结 果
观 耩 ,本算 法 的 分 类正 确 率 可 达 92.5%.拒 识 率 仅 为 4.7%.与 原 有 的 处理 方 法 相 比 .具 有
明 显 的 改 进 和 提 高 。
关键词 乏型 三 兰圭主至!.细化 模糊规则
一
、
引言
粘连 字 符 的 分 割 和 识 别 是 光 学 字 符 识 别
(OCR)系 统 发 展 中亟 待 解 决 的 关 键 问 题 之 一。
近 几 年 来 .研 究 人 员已经 提 出 了许 多 处理 算 法 。
1995年,Lu回顾 了印 刷 体字 符的 各种 分 割技
术 l,最 近 他 又 与 Shridhar合 作 提 出 了 手 写 体
字 符 分 割 的 各 种 处 理 方 法 。
Cherlet等 人 提 出 了 一 种 基 于 区域 的 粘 连
字符分割方法 J.该方 法通过 自上 而下 和 自下
而 上 两 个 独 立 的 匹 配 过 程 来辨 识 背 景 区域 之 间
的相关 程度 ,并 以此为 依据 实现 匹配 区域 的连
接 ,以得到 相应 的分割 线。若 没有 任何 匹配 区
域 .则可 以 得 到 一 个垂 直方 向 的分 割 线 .该 线 既
可能从较 低区域 向上.也可能从较高 区域 向下 。
Strathy等 人 提 出 了 基 于 轮 廓 结 构 特 征 的 分
割算法。该算法从分析二 值化字符 图像的轮廓
链码着手 ,得 出其 中的大 曲率点.分割线 由其 中
的一对大 曲率 决定。对 于每条 分割线 .都需
要 用 9个 特 征 来计 算 ,并 用 这 9个 特 征 对 所 有
可能 的分割线 进行 分 类。在早 期的工 作 中,我
们已提 出了一种 基于轮廓 曲率的单接触和双接
触手 写 体 粘 连 字 符 的 分 离 方 法 l5 J。 在 该 算 法
中,借助 于一整套 特征和相 应的权值 函数对所
有 的候选分割 线进 行 了分 类,并用最 近邻域分
类 器 进行 了测 试 。 Yu和 Yan提 出 了 一 种 基 于
数 字字 符轮 廓 拓 扑 特 征点 分 布 的形 态 学 处 理 技
术 lo’。Westall和 Narasimha则 给 出 了 一 种 指
向顶 点的 分割 算法【7』。在 该算 法 中,首先 需要
辨识 在 指 定 方 向上 相 邻 笔划 边 缘 汇聚 时形 成 的
顶 点位置,通 过连接选 定 的顶 点将直线扩 展 至
整 个 图 像的上 沿和 下沿 来 得 到 分 割 线 。 图 像 左
右 两侧 的 几何 特 征 用 来验 证 其分 割 线的 有效
性 。虽 然 目前 已经 提 出 了许 多 分 割 和 识 别 手 写
体粘连 字符的方法 ,但 为 了使这 项技术 走向实
用.仍然有很 多 工作 要做。其 中最 为重要 的是
如何在 保持合理识 别率的前提 下,尽可能 地减
少 待 测 候 选 分 割 线 的 数 目和 整 个 系 统 的 拒 识
率 。
在本文 中.我 们提 出了一种 基于 背景骨 架
(除字符 以外的图像 区域 )分析的粘连数字字符
分 割 方法 。 图 1为该 方 法 的 主 要 流 程 。 本文 的
主 要 内容如下 :第二章 简要介绍 两个数字字 符
粘连的主要形式 ;第三章讨论 特征 点的提取 ;第
四章给 出如何 通过 特 征点 的 匹配来 获取 分 割
线 ;在 第五章 中,我 们给 出了使用模糊规则对候
选分割线进行分级 的方法 ;第六章 ,用本文提出
7
_
l
维普资讯 http://www.cqvip.com