没有合适的资源?快使用搜索试试~ 我知道了~
强干扰复杂背景下文字识别算法的研究.pdf
5星 · 超过95%的资源 需积分: 10 34 下载量 137 浏览量
2011-02-11
16:42:49
上传
评论
收藏 2.93MB PDF 举报
温馨提示
试读
91页
这是一篇关于强干扰、复杂背景条件下文字识别方面算法研究的文字,共同学习。
资源推荐
资源详情
资源评论
强干扰复杂背景下文字识别算法的研究
华南理工大学学士学位论文 · I ·
摘要
摘要摘要
摘要
传统识别软件对航空公司飞机票图像的识别效果不好,尤其在受到严重干
扰、背景复杂的情况下简直是无能为力。本文通过系统、细致的研究,对其中的
机票号区域识别给出了一个识别率相当高的解决方案,并已在实际运行的商用系
统中得到初步检验,同时对机票综合多区域识别中已经研发成功和正在研究中的
算法给予了介绍。
本文首先介绍了目前民航票据处理的现状,需要识别的工作以及遇到的困
难,现有文字识别系统的状况,识别的一般原理。然后针对飞机票识别的困难,
借鉴现有方法并自主研发了部分算法,详细介绍了文字识别中的预处理,包括飞
机票区域定位、文字分离、高准确度二值化、平滑去噪、文字正规化、细线化等
方面。接着对文字识别内核的算法集中展开论述,阐述了系统开发中研究过的模
板匹配、复合类似度方法、反向传播神经网络和正在开发中的卷积神经网络的识
别方法、得到的结果。最后对使用这些算法设计的一个航空票据识别系统的系统
结构和使用进行了说明。
本文综合运用了当前在模式识别、图像处理上比较先进的技术,并对其中的
部分问题给出了自己的研究成果和解决算法。
关键词:机票,
OCR
,切分,二值化,正规化,细线化,识别,神经网络
强干扰复杂背景下文字识别算法的研究
华南理工大学学士学位论文 · II ·
Abstract
To recognize the information in flight coupon is part of a Flight Coupon Digital
Image Management System. But traditional recognition software cannot recognize
these coupon images, because of the strongly disturbed and complex image
backgrounds. This paper researchs focus on this problem. It presents a high
recognition rate system resolution for coupon number area and introduces the
algorithms being used and underresearch for coupon multi area recognition. The
system has been used in a commercial environment.
Firstly, we introduce the current status about flight coupons dealing, the
information need to be recognized and its difficulties, and the chatacter recognition
systems and their general theory nowadays. Secondly, we refer some of existing
methods and develop some algorithms ourselves, aiming at the difficulties in flight
coupon recognition, and explain the pretreatment of character recognition in detail,
including region localizing, character segmentation, binarization, smoothing,
nomalization, thinning and etc. Then we discuss the kernel recognition engine we
developed, including pattern recognition, combined Similarity, back propagation
neural network, and convolutional neural network that is being developed. Finally, we
introduce a recognition system using these methods and algorithms.
Keyword: Flight Coupon, OCR, Segmentation, Binarization, Normalization, Thinning,
Recognition, Neural Network
强干扰复杂背景下文字识别算法的研究
华南理工大学学士学位论文 · III ·
目录
目录目录
目录
摘要................................................................................................................................I
Abstract ......................................................................................................................... II
目录..............................................................................................................................III
第 1 章 概述................................................................................................................. 1
1.1 信息处理概述................................................................................................ 1
1.2 民航结算飞机票处理现状............................................................................ 1
1.3 解决飞机票处理的新方式............................................................................ 2
1.4 飞机票影像管理系统的特点........................................................................ 2
第 2 章 机票识别的要求和困难................................................................................. 4
2.1 机票识别的要求............................................................................................ 4
2.2 识别的困难.................................................................................................... 5
第 3 章 文字识别技术概述....................................................................................... 10
3.1 研究计算机文字识别的目的及意义.......................................................... 10
3.2 文字识别技术的发展...................................................................................11
3.2.1 文字识别研究的历史........................................................................11
3.2.2 文字识别技术的发展........................................................................11
3.3 文字识别技术的应用.................................................................................. 12
3.4 文字识别的一般原理.................................................................................. 12
第 4 章 图像预处理................................................................................................... 15
4.1 区域定位和文字分割.................................................................................. 15
4.1.1 机票号区域定位............................................................................... 15
4.1.2 文字分割........................................................................................... 17
4.1.3 多区域定位....................................................................................... 19
4.2 二值化.......................................................................................................... 22
4.2.1 基本概念........................................................................................... 23
4.2.2 双峰直方图阈值分割法和平均灰度法........................................... 24
4.2.3 微分直方图法................................................................................... 24
4.2.4 Ostu 方法 ........................................................................................... 25
4.2.5 Bernsen 方法...................................................................................... 26
4.2.6 Chow 和 Kaneko 方法....................................................................... 27
4.2.7 Eikvil 等人的方法 ............................................................................. 27
4.2.8 Mardia 和 Hainsworth 方法............................................................... 27
4.2.9 Niblack 方法 ...................................................................................... 28
4.2.10 Taxt 等人的方法.............................................................................. 28
4.2.11 Yanowitz 和 Bruckstein 方法........................................................... 28
4.2.12 White 和 Rohrer 的动态阈值算法 .................................................. 29
4.2.13 Parker 方法 ...................................................................................... 30
4.2.14 White 和 Rohrer 的集成函数算法 .................................................. 30
4.2.15 Trier 和 Taxt 方法 ............................................................................ 30
强干扰复杂背景下文字识别算法的研究
华南理工大学学士学位论文 · IV ·
4.2.16 后处理步骤..................................................................................... 31
4.2.17 二值化方法比较............................................................................. 31
4.3 平滑和去噪.................................................................................................. 32
4.4 正规化.......................................................................................................... 33
4.5 细线化.......................................................................................................... 35
第 5 章 文字识别方法............................................................................................... 38
5.1 统计决策方法.............................................................................................. 38
5.2 复合类似度的模板匹配.............................................................................. 41
5.2.1 复合类似度的定义........................................................................... 41
5.2.2 距离变换图像的生成和计算........................................................... 42
5.3 反向传播神经网络...................................................................................... 43
5.3.1 神经网络概述................................................................................... 43
5.3.2 用 BPNN 进行字符识别 .................................................................. 46
5.4 卷积神经网络.............................................................................................. 53
第 6 章 ATO S 系统说明............................................................................................ 68
6.1 系统总体设计.............................................................................................. 68
6.1.1 国泰航空飞机票数字影像管理系统............................................... 68
6.1.2 上海航空飞机票数字影像管理系统............................................... 70
6.2 ATOS 系统说明 ............................................................................................ 72
6.2.1 系统设计........................................................................................... 72
6.2.2 ATOS 系统使用说明 ......................................................................... 73
第 7 章 后记............................................................................................................... 80
7.1 总结.............................................................................................................. 80
7.2 未来的工作.................................................................................................. 80
7.3 感想和感谢.................................................................................................. 81
插图目录..................................................................................................................... 82
参考文献..................................................................................................................... 84
强干扰复杂背景下文字识别算法的研究
华南理工大学学士学位论文 · 1 ·
第
第第
第1章
章章
章
概述
概述概述
概述
1.1 信息处理概述
信息处理概述信息处理概述
信息处理概述
信息处理技术在我国现代化以及信息化建设中,越来越起着重要的作用。作
为一个高新技术重点,它已经列入国务院批准的“国家中长期科学技术发展纲
领”。十几年来,我国信息处理领域,在技术研究,产品开发以及产业建立上都
取得了显著的成绩,比如清华紫光、汉王、尚书等通用以及专用系统的开发,已
经达到国际较先进的水平,在中文信息处理技术上,更居于国际领先水平。在最
近的第四次全国人口普查中,就应用了清华紫光集团的专用识别系统,大大提高
了数据样本录入以及处理速度。
但目前识别系统的一个最大的问题还是智能化程度不够高,识别率达不到广
泛应用的要求。要解决这个问题,一方面需要在一般识别技术上攻关,提高、改
善、创新识别算法、技术来提高识别率;另 一方面就是根据需要识别的文档的具
体特点,有针对性地开发专用算法、技术,在专用问题上达到最好的效果。
1.2 民航结算飞机票处理现状
民航结算飞机票处理现状民航结算飞机票处理现状
民航结算飞机票处理现状
目前民航飞机票(Flight Coupon)处理上相当落后,基本上是雇佣大量人力
进行人工录入,飞机票的保存也很成问题,要耗费大量的时间、人力、物力和财
力,还解决不了错误频频发生的问题。根据研究显示,人工登录的速度平约每分
钟 120 个字符,其错误率约为 1/300;换言之,每登录 300 个字符,就会有 1 个
字符是错的。目前国泰航空信息处理有限公司雇佣了约 200 人专门手工处理飞机
票,即使是小型的西北航空公司也雇佣了 30 多人进行这一工作,南方航空公司
年处理飞机票据 3000 万张,任务繁重,效率极低,迫切需要解决[SZhao and Wang
02]。
根据有关规定,飞机票要保存 5 年以上(国泰航空为 7 年),有的航空公司考
虑存放飞机票要占用大量面积,因市区租金昂贵,为 了 节约另设存放库房。根据
管理要求结算中心又需要经常与飞机票库房联系查询,费人、费时、费力。使得
查询愈发困难。所有这些飞机票一旦丢失或损坏将会给航空公司带来无法弥补的
损失,因此要动不少脑筋妥善保存这些票据,防止纸张因受潮、发 霉等自然因素
而受到损坏,特别是要注意防火。
此外,由于纸质票据查阅及传递速度慢,不 能 共享,查阅过程中易丢失或损
伤原件, 所以要想在需要的时候从大量的票据中快速准确的查找到所需的并不
容易做到。想要异地查询,或是对票据中的数据所含信息进行深层次挖掘,更是
不可能实现。很显然,这样一种票据管理的现状远不能满足当今竞争激烈、面 向
世界、加入 WTO 时代的要求。
结果,大量票据变成了航空公司的一块心病,一个不得不背的包袱。而换个
剩余90页未读,继续阅读
资源评论
- weizheng_19882012-12-14太深奥。数学不好的人 完全的一头雾水。
- heiqishi1232013-09-05正想学习一下这方面的内容,谢谢楼主
twttmnny
- 粉丝: 3
- 资源: 17
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功