没有合适的资源?快使用搜索试试~ 我知道了~
基于matlab的碎纸片的拼接复原内含数据集以及说明书.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 161 浏览量
2024-05-02
18:08:22
上传
评论
收藏 444KB DOCX 举报
温馨提示
试读
49页
本文档是课题研究的研究报告内含调研以及源码设计以及结果分析
资源推荐
资源详情
资源评论
1
碎纸片的拼接复原
摘 要
本文针对附件1至附件5中经过碎纸机破碎后的各类纸片,设计不同的模型和算法,复
原碎片。主要利用碎片间差异度大的特征构造特征因子,来描述碎片的行列特征,用以比
较、分类、匹配。
问题一,对仅纵切碎片提取左右边界差异。将碎片用矩阵表示,将边界列向量视
为1980维空间中的点,在两点间定义绝对值距离用以描述碎片边缘的匹配程度。两点间
的绝对值距离越大表示碎片匹配程度越低,两点间的绝对值距离越小表示碎片匹配程度
越高。在此定义基础上建立最优化模型,寻找和待匹配碎片距离最小的碎片与之相邻。按
照此法依次从左至右找到相邻碎片,最终复原碎片,并且不用人工干预。
问题二,经过横纵切后的碎片左右边界差异不如问题一明显,故构造新的特征因子
记录碎片空白行的宽度和位置信息。先找出位于文章最左端的11个碎片,根据空白行的
特征为余下碎片找到同行的18个碎片。从最左端的11个碎片开始利用图论中寻找权值最
小哈密尔顿路径的相关理论以及最优化理论向右复原整行碎片,得到11条只有横切的碎
片条。再根据上下端特征,利用与问题一相似方法,并配合少量的人工干预复原全文。
问题三,先对英文碎片进行预处理,抹掉每个字母的“长比划”,得到空白行较为规
整的碎片,方便提取空白行特征信息。再定义四个行特征因子:
θ₁为从碎片顶端像素开始向下连续白像素的个数。
0₂为从碎片底端像素开始向上连续白像素的个数。
m 为从碎片顶端像素开始向下连续黑像素的个数。
n₂为从碎片底端像素开始向上连续黑像素的个数。
利用聚类分析分类,每类中的绝大部分碎片同属一行,人工将错误碎片调整,得到各
行碎片,建立优化模型得到复原图,复原图完整度为54.55%,经过23次的人工干预得到最
终的完整复原图。
在文章最后还提出了基于中英文字符不同特点的复原优化模型。
【关键字】碎纸片的拼接、特征因子、灰度矩阵、二值化矩阵、最大类间方差法、最优化、
哈密尔顿路径、聚类分析
2
I 问 题 重 述
破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重
要的应用。传统上,拼接复原工作需由人工完成,准确率较高,但效率很低。特别是当碎
片数量巨大,人工拼接很难在短时间内完成任务。随着计算机技术的发展,人们试图开发
碎纸片的自动拼接技术,以提高拼接复原效率。我们需要讨论以下问题:
1. 对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸
片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行
拼接复原。如果复原过程需要人工干预,要求写出干预方式及干预的时间节点。
2. 对于碎纸机既纵切又横切的情形,要求设计碎纸片拼接复原模型和算法,并
针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需
要人工干预,要求写出干预方式及干预的时间节点。
3. 上述所给碎片数据均为单面打印文件,从现实情形出发,还可能有双面打印
文件的碎纸片拼接复原问题需要解决。附件5给出的是一页英文印刷文字双面打印文件的
碎片数据。要求设计相应的碎纸片拼接复原模型与算法,并就附件5的碎片数据给出拼接
复原结果。
Ⅱ 符 号 说 明
II.1 符号说明
问题一
·A; …………………………………………………………… 第个碎片对应的二值化矩阵
……………………………………………………………… A;的首、尾列的向量
·E
……………………………………………………用于存放依次匹配复原的图片的集合
·F ………………………………………………………………………用于存放碎片的集合
)………………………………………………………两点z{,x2间的绝对值距离
·x{(m) ……………………………………………………………………向量x2的第m个元素
●
) ……………………………………………………………………向量x2的第m个元素
·b …………………………………………………… 用于记录碎片相邻顺序的19列行向量
●b(m) ……………………………………………………………………………b的第m列元素
·k ………………………………………………………………………………………计数变量
问题二
· cj
…………………………………用于记录A;空白行位置的列向量,即空白行特征因子
·c;(m) …………………………………………………………………………… c;第m个元素
● ●
3
·l …………………………………………………………………灰度矩阵A;的向左最小边距
●……………………………………………………………………灰度矩阵A;的向右最小边距
·e ………………………………………………………………………………………边界误差
·α ……………………………………………………………………………像素值的比例因子
●β ……………………………………………………………………………像素值的偏离因子
●
DH …………………………………………………………………………………………阈 值
●TH …………………………………………………………………………原图片的文字间距
问题三
·w ……………………………………………………… 每个空白行出现“长比划”的个数
●SH …………………………………………………………………………………………阈 值
●A …………………………………………………………………………………碎片二值矩阵
·A( k,j) ……………………………………………………………二值矩阵中第k行,j列元素
●θ1 ……………………………………………从碎片顶端像素开始向下连续白像素的个数
●θ₂ ……………………………………………从碎片底端像素开始向上连续白像素的个数
·m ……………………………………………从碎片顶端像素开始向下连续黑像素的个数
●n₂ ……………………………………………从碎片底端像素开始向上连续黑像素的个数
模型优化
●xi
………………… 残缺字母与第i个字母的模块矩阵中的0元素(黑像素)匹配上的对数
· xi …………………………………………………残缺字母与第p个字母配对的最大比率
I Ⅲ 模 型 的 建 立 与 求 解
III. 1问题 一
对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接
复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复
原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。复原结果以图片
形式及表格形式表达.
4
I.1.1 问题一的分析
为了叙述以及编程的方便,在分析过程中给予附件图片新编号,附件的图片编号去
除无效0位后统一加上1作为新编号,如bmp000的新编号为bmpl。
因为颜色在计算机中用数值表示,故将附件一、二中的每张bmp图片用一个矩阵来表
示。又图片的颜色只有黑白灰三种,故建立的矩阵即为灰度矩阵。只要对每张图的灰度
矩阵做处理比较即可。
问题一为一维复原问题,仅考虑碎片左右(x轴方向)端的特征即可。
首先找出文章的最左端,由于原文页边距一定大于相邻文字的左右间距,故最左端
文字与图片左边缘的距离最大的那张碎片即为文章的最左端。
找出最左端的碎片,就能以此从左往右拼出全文。
不妨设碎片为1(左)、2(右)相邻。则1右边缘的所有残缺文字就可以与2左边缘的所
有残缺文字组成一列完整的文字,若用灰度矩阵描述此现象,如下。
穹 掌
255
255
255
255
255
255
255
255
76
0
0
240
255
97
0
0
254
255
182
0
0
203
255
149
0
0
235
255
137
0
13
255
255
37
0
63
255
255
191
0
0
0
193
将汉字“掌”劈开,得到两张图分别存放“掌”的左右两半。上图左列向量为左半“掌”最
后一列像素的灰度值;上图右列向量为右半“掌”最前一列像素的灰度值。可由上述图例
发现两张图相邻边缘像素列的灰度值存在高一一匹配度,即绝大部分行的灰度值相等。
根据以上思想建立最优化模型,寻找与被匹配图存在最多一一对应的图片,即可判
定为被匹配图的相邻图片。
考虑到由于每个字边缘像素的灰度多种,会使相邻图的一一匹配对数下降,故将灰
度矩阵二值化为只有0(黑色像素)和255(白色像素)的矩阵。我们所说的图像的二值化,
就是将图像上的像素点的灰度值设置为0(黑色像素)或255(白色像素),也就是将本题
中的灰色像素点转化为白色或者黑色像素点。
5
最常用的方法就是设定一个全局的阈值,用阈值将图像的数据分成两部分:大于阈
值的像素群和小于阈值的像素群。将大于阈值的像素群设置为白色,小于阈值的像素群
设置为黑色
根据阈值选取的不同,二值化的算法分为固定阈值和自适应阈值,比较常用的二值
化方法有双峰法,P参数法,迭代法和最大类间方差法
最大类间方差法是一种自适应的阈值确定的方法,它是按图像的灰度特性,将图像
分成背景和目标两个部分。背景和目标之间的类间方差越大,说明构成图像的两部分的
差别越大,当部分目标错分为背景或部分背景错分为目标都会导致两部分差别变小。因
此,使类间方差最大的分割意味着错分概率越小。
本题采用的阈值为0.5373的最大类间方差法
在此之后,我们引入绝对值距离来描述匹配程度,具体模型如下。
ⅢI.1.2 问题一模型建立
特征因子的构建
碎片bmpl,bmp2,bmp3,…bmp19对应的二值矩阵分别记为A₁,A₂,…,A1g。特征因子x{,x2
(i=1,2……,19)分别为A;的左、右端列向量,可看做1980维空间内的点,则共有19×2个列向量。
绝对值距离的定义
在A₁(左),A₃(右)(ij=1,2,…,19,且i≠j) 的两点xi,xz间定义绝对值距离:
xí(m)表示向量x2 的第m个元素,x2(m)表示向量x2的第m个元素。
利用两点间距离的大小来判断相A;(左),A;(右)边缘的匹配程度,距离越大代表匹配程
度越低,距离越小代表匹配程度越高。
问题一复原模型以及算法
stepl: 算出19张碎片左端的留白距离,得到距离最大的图片即为原图最左端的碎片,
编号为left, 其二值矩阵为Aleft
step2:建立两个用于存放各图片二值矩阵的集合E,F。E=Aleft,F={A₁,A₂,…,A1g}\
Aeft,建立19列的顺序行向量b,并将其初始化0向量,用于存放重新排列顺序(即复原)后
的碎片对应的二值矩阵标号。b(1)=left.k 为计数变量,表示按照左右相邻顺序已排好k个二
值矩阵(碎纸机图),初始化k=1。
step3:利用最优化的方法为第k张图向右匹配第k+1张图。
得最优解Ass:
剩余48页未读,继续阅读
资源评论
小码蚁.
- 粉丝: 2525
- 资源: 4090
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功