没有合适的资源?快使用搜索试试~ 我知道了~
印刷体汉字识别及其MATLAB实现.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 71 浏览量
2021-11-14
22:31:11
上传
评论
收藏 581KB DOCX 举报
温馨提示
试读
20页
。。。
资源推荐
资源详情
资源评论
印刷体汉字的识别及其 MATLAB 实现
0.汉字识别研究的意义
汉字已有数千年的历史,是中华民族文化的重要结晶,闪烁着中国人民智慧
的光芒。同时也是世界上使用人数最多和数量最多的文字之一。现如今,汉字印
刷材料的数量大大增加,一些专业单位所接触的印刷材料更是浩如烟海,信息量
均是爆炸性增长。然而,汉字是非字母化、非拼音化的文字,因此,如何将汉字
快速高效地输入计算机,是信息处理的一个关键问题,也是关系到计算机技术能
否在我国真正普及的关键问题,更是传播与弘扬中华民族悠久历史文化的关键问
题。而且随着劳动力价格的升高,利用人工方法进行汉字输入也将面临经济效益
的挑战。因此,对于大量已有的文档资料,汉字自动识别输入就成为了最佳的选
择。因此,汉字识别技术也越来越受到人们的重视。汉字识别是一门多学科综合
的研究课题,它不仅与人工智能的研究有关,而且与数字信号处理、图像处理、
信息论、计算机科学、几何学、统计学、语言学、生物学、模糊数学、决策论等
都有着千丝万缕的联系。一方面各学科的发展给它的研究提供了工具;另一方面,
它的研究与发展也必将促进各学科的发展。因而有着重要的实用价值和理论意
义。
1.印刷体汉字识别的研究
1.1 印刷体汉字识别技术的发展历程
计算机技术的快速发展和普及,为文字识别技术应运而生提供了必备条件。
加上人们对信息社会发展的要求越来越高,文字识别技术的快速发展可想而知。
印刷体文字的识别可以说很早就成为人们的梦想。印刷体汉字的识别最早可以追
溯到 60 年代,但都是西方国家进行的研究。我国对印刷体汉字识别的研究始于
70 年代末 80 年代初。同国外相比,我国的印刷体汉字识别研究起步较晚。从80
年代开始,汉字 ORC 的研究开发一直受到国家重视,经过科研人员十多年的辛勤
努力,印刷体汉字识别技术的发展和应用,有了长足进步。
1.2 印刷体汉字识别的原理分析及算法研究
汉字识别实质是解决文字的分类问题,一般通过特征辨别及特征匹配的方法
来实现。目前汉字识别技术按照识别的汉字不同可以分为印刷体汉字识别和手写
体汉字识别。印刷体汉字识别从识别字体上可分为单体印刷体汉字识别与多体印
刷体汉字识别。
印刷体汉字识别的流程如图 1-1 所示:
1
(3)倾斜校正
2
像预处理的重要部分。倾斜校正的核心在于如何检测出图像的倾斜角。
(4)汉字切分
汉字切分的目的是利用字与字之间、行与行之间的空隙,将单个汉字从整个
图像中分离出来。汉字的切分分为行切分和字切分 。
[9]
(5)归一化
归一化也称规格化,它是把文字尺寸变换成统一大小,纠正文字位置(平移),
文字笔画粗细变换等文字图像的规格化处理,并只对文字图像进行投影。
(6)平滑
对数字图像进行平滑,目的是去处孤立的噪声干扰,以平滑笔画边缘。平滑
在图像处理中实质是一幅文字图像通过一个低通滤波器,去除高频分量,保留低
频分量。
(7)细化
细化处理是将二值化文字点阵逐层剥去轮廓边缘上的点,变成笔画宽度只有
一个比特的文字骨架图形。细化处理的目的是搜索图像的骨架,去除图像上多余
的像素,从而在不改变图像主要特征的前提下,减少图像的信息量。
1.2.2 汉字特征提取
预处理的最终目的是为了更加方便、准确地进行汉字的特征提取,从而提高
汉字识别率。对于汉字,其特征大致分为两类,包括结构特征和统计特征,至今
总数已经不下百种。
要做到有的放矢,就需要研究已有的获得良好效果的各种汉字特征,分析它
们的优点、缺点和适用环境。如下列出常用的一些的汉字结构特征和汉字统计特
征。
1.结构特征
(1)抽取笔画法
抽取笔画法是利用汉字由笔画所构成的特点进行识别,它利用汉字的结构信
息来进行汉字的联机识别,在印刷体和脱机手写识别中,由于笔画提取的困难,
结果不是很理想。
(2)松弛匹配法
松弛匹配法是一种基于全局特征的匹配方法,它对输入汉字作多边近似,抽
取边界线段,将这些边界线段组成临近线段表,然后用松弛匹配操作,完成边与
边的匹配。这种方法利用弹性吸收汉字的变形,一个字只用一个样本。
(3)非线性匹配法
非线性匹配法是由 Tsukumo 等提出的,用以解决字形的位移、笔画的变形
等现象。此方法试图克服从图形中正确抽取笔画的困难,以提高正确判别的能力。
2.统计特征
(1)笔画复杂性(Complexity Index)
3
笔画复杂性指数是指文字笔画的线段密度,其定义如下:
C L /
(1-1)
(1-2)
x
y
x
C L /
y
x
y
式(1-1)和(1-2)中
C 、 C 一横向和纵向的笔画复杂性指数;
x
x
x
y
y
y
、
L
L
一横向和纵向的文字线段总长度;
一横向和纵向质心二次矩的平方根;
、
C 、C 分别反应了横向和纵向的笔画复杂性,横多的C 大,竖多的C 大。
x
y
x
y
笔画复杂性指数与汉字的位移无关,受字体和字号的影响较小,但易受笔画断裂
和粘连的影响,且其分类能力较差,常与另一种粗分类方法“四边码”连用。
(2)四边码(Four-side Code)
四边码是在汉字点阵图的四周各取一条带,计算其中的文字图像素点数,并
将它分成四级,构成一个四元组。由于汉字边框不但含有丰富的结构信息,而且
边框部分笔画一般较少,不易粘连,抗干扰能力强,但对汉字的位移和旋转比较
敏感,与笔画复杂性指数正好形成互补。
(3)特征点
特征点提取算法的主要思想是利用字符点阵中一些有代表性的黑点(笔画)、
白点(背景)作为特征来区分不同的字符。特征点包括笔画骨架线的端点、折点、
歧点和交点,汉字的背景也含有一定的区别于其它汉字的信息,选择若干背景点
作为特征点,有利于提高系统的抗干扰能力。其特点是能够大大压缩特征库的容
量,对于内部笔画粘连字符,其识别的适应性较强、直观性好,但不易表示为矢
量形式,匹配难度大,不适合作为粗分类的特征。
(4)笔段特征
汉字是由笔画组成的,而笔画又由笔段组成,笔段可近似为一定方向、长度
和宽度的矩形段。利用笔段与笔段之间的关系组成特征对汉字进行识别,受字体
和字号的影响小,对于多体汉字的识别获得了良好效果。其缺点是笔段的提取会
较为困难,匹配的难度大,抗内部笔画断裂或者粘连能力差。
1.2.3 汉字识别分类
1.相关匹配
这是一种统计识别方法,它通过在特征空间中计算输入特征向量与各模板向
量之间的距离进行分类判决。
(2)文法分析
文法分析的基本思想是将输入的汉字看作是一个语句或符号串,将识别问题
转化为判断输入的语句是否属于某种语言,即句子是否符合某种语言的语法约束
条件。
4
剩余19页未读,继续阅读
资源评论
苦茶子12138
- 粉丝: 1w+
- 资源: 6万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 【学生课程实验】基于Vue + Node的外卖系统设计与实现【源码+lw+部署文档+讲解】
- 大学生数学建模竞赛论文(长江水质的评价和趋势分析模型)II.zip
- WIN10安装S7-200 SP9不能通讯解决方案
- FreePic2Pdf-v5.01 图片批量转换pdf/双层pdf 书签提取/导入
- 基于区块链的信息追溯系统的设计与实现+详细文档+全部资料(高分毕业设计).zip
- IMG_0796.PNG
- Hyper+Lightning5+SDXL大模型比较推荐
- 基于matlab 模糊神经网络的预测算法-嘉陵江水质评价源代码+详细教程
- PHP8 PDO MYSQL示例
- 毕业设计 基于区块链以及人脸识别的NFT交易系统源码+详细文档+全部资料(高分项目).zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功