国,印“研凸∥珂PP砌g口玎d卸阮口砌肿计算机工程与应用
2012,48(5)
207
基于文字特征的文档碎纸片半自动拼接
罗智中
LUO
Zhizhong
华东交通大学机电工程学院,南昌330013
School
ofMechanical
and
ElectricaI
Enginee血g,E觞t
Chim
Ji∞tong
U痂Ve瑙i劬N柚ch锄g
330013,China
LUo
Zhizhong.Semi—aut0
s6tching
of
scrapped
paper
based
on
character
characterisUc.Computer
En西neeriⅡg
and
AppHca-
dons,2012,铝(5):207·2lO.
Abstract:This
paper锄alyzes
d锄耐ts
of
classicalstitching
method
b勰cd
on
edge
geome时charac硎stic
of
scml)pcd
p印盯,studies
ch扰lct耐stic
of
charactcr
row柚d
table酣d
in
scrapped
pap%invest追ates
nleir
acquisiti∞metllod,锄d
proposes
a
s啪i
amo
stitch.
ing
method
f.or
scmpped
paper
b船ed
on
chamcter’row
and
table
grid.IIl
tlle∞d'C
lang岫ge
cornp咖pr0罂撇s
for
s锄i-auto
stitching
of
scmpped
p印cr
arc
dcVeloped
according
t0
this
algorithrn.They
a心applied
in
a
stitching
exp嘶m∞t
fol。pieces
of
scmppcd
pap%
The
result
shows廿1at
tllis
senli-au幻stitchiIlg
method
is
eff酏tiVe.
Key
words:stitchil唱of
scmpped
papcr;image
stitching;pa仕锄rcco辨ition
摘要:分析了基于几何特征的碎纸片自动拼接方法的缺点,研究了碎纸片内文字行特征,表格特征特点,以及碎纸片内文字行
特征、表格线特征的获取方法,提出了基于碎片文字行特征或表格特征的碎片半自动拼接算法。根据算法研制了C语言计算机
程序,用该程序对一实际例子进行了拼接试验,试验结果表明该方法效果良好。
关键词:碎纸片拼接;图像拼接;模式识别
DOI:lO.3778巧.is娓.1002.8331.2012.05.060
文章编号:1002.833l(2012)05.0207.04
文献标识码:A
中图分类号:TP301
1
引言
常规文档碎纸片计算机拼接方法一般利用碎片边缘的尖
点特征、尖角特征、面积特征等几何特征,搜索与之匹配的相
邻碎纸片并进行拼接n卅,这种基于边界几何特征的拼接方法
并不适用于边缘形状相似的碎纸片。但是人手撕裂碎纸片
时,为节省时间习惯上总是先将碎纸片重叠在一起,然后撕
裂,再将碎纸片重叠起来,再继续撕裂,这样反复下去,直到得
到满意大小的碎纸片为止。这种撕裂过程会产生很多形状非
常相似的碎纸片,拼接时如果只利用碎片的边界特征,拼接效
果并不理想。
对这类边缘相似的碎纸片的拼接,理想的计算机拼接过
程应与人工拼接过程类似,即拼接时不但要考虑待拼接碎纸
片边缘是否匹配,还要判断碎片内的字迹断线或碎片内的文
字内容是否匹配,然而由于理论和技术的限制,让计算机具备
类似人那种识别碎片边缘的字迹断线、以及理解碎片内文字
图像含义的智能几乎不太可能。但是利用现有的技术,完全
可以获取碎片文字所在行的几何特征信息,比如文字行的行
高、文字行的I.日J距等信息,拼接碎片时如利用这些信息进行拼
接,其拼接效率无疑比单纯利用边界几何特征方法要好些。
由于大多数文字文档的文字行方向和表格线方向平行且
单一,如果碎片内的文字行或表格在碎片边缘断裂,那么与它
相邻的碎纸片在边缘处一定有相同高度、相同间距的文字行
或表格,凭此特征可以很容易地从形状相似的多碎片中挑选
出相邻碎片。因文字行或表格线的高度特征、间距特征的识
别比字迹断线识别和文字图像的理解实现起来要容易得多,
利用碎片内文字行特征或表格特征拼接形状相似的碎纸片理
论上是可行的。
另一方面由于计算机数字分析图像能力的缺陷,让计算
机对碎片进行完全意义上的自动化拼接也几乎不太可能,为
保证拼接的准确性,需要在拼接过程中加入人工干扰过程。
一般而言拼接碎片时先利用计算机搜索与目标碎片匹配的未
拼接碎片,并根据匹配程度按顺序显示待选碎片,操作员再根
据人脑进一步分析结果舍弃或拼接待选碎片。这种半自动拼
接方法综合利用了计算机高速计算能力以及人的文字图像识
别和理解能力,拼接效率比纯人工高,拼接准确性也好于纯计
算机拼接法。本文将详细研究这种基于文字特征、表格特征
的碎片半自动拼接方法。
2文字行特征的获取
2.1文字行方向的确定
拼接碎片前需对碎片内图像进行二值化处理,一般利用
sobel梯度算子或其他梯度算子对碎片图像进行处理,以获取
文字边界,进而获取碎片内文字行方向、高度、间距等文字行
特征,梯度大于给定阈值的点取红色,否则取白色,见图l(a)。
为提高分析的准确性,假设未碎纸张的文字行方向沿水
平方向,文字为汉字,汉字与汉字之间有间隔,汉字宽度与高
度比值l,3 ̄3。这意味着每个文字图像与其他文字图像之间
有空白点,文字图像宽度与高度的比值在1/3—3之间,如果碎
片内有西文单词,应将英文单词图像拆分成类汉字图像,即将
英文单词图像分割成宽度与高度近似的类汉字图像,同样如
果汉字图像之间靠得非常紧密,以至于行内汉字之间红点互
相邻接,也需删除汉字图像之问过多红点,见图l(b)。
碎片内文字图像经上述预处理后,再采用下述扫描算法
可获取碎片内的文字行方向:
基金项日:江西省教育厅2010年科学技术研究项目(No.GJJl0447)。
作者简介:罗智中(1970一),男,工学博士,副教授,主要研究领域:机电—体化。E-mail:l瑟@ecjnl.cdu.cn
收稽日期:20lI-09·19;修回日期:20ll—ll-22
万方数据