没有合适的资源?快使用搜索试试~ 我知道了~
人工智能-图像处理-扫描档案的图像处理技术.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 105 浏览量
2022-07-05
22:40:49
上传
评论
收藏 1.34MB PDF 举报
温馨提示
试读
49页
人工智能-图像处理-扫描档案的图像处理技术.pdf
资源推荐
资源详情
资源评论
ABSTRACT
Protection and utilization of the paper work has been an important file systems,
paper files easily damaged, consult low efficiency, can not have been plagued by
archivists facilitate the use of computers and other issues. To digitize paper files
scanned and converted into digital information is more common and effective
techniques nowadays taken. In recent years, the digital archive processing in China
has advanced to the provincial and municipal archives at district level archives. From
across the country to see the growth of the digital archive quickly, but because of too
many historical debts, the regional development imbalances and other reasons, it has
been digitally processed files total file share is still very limited. With the digital
archive in accelerating our process, some problems exist in file scanning archives
department has gradually attracted attention. Since the device, save the file quality of
scanned images and other causes the presence of noise, light and dark image
unevenness, distortion, etc. These problems seriously affect the digital image OCR
(Optical Character Recognition) to identify, and later scanned files It uses.
This paper studies the use of digital image processing technology to solve
problems in the scanned image. Since archival resources has its own confidential
attributes, see under the same premise of quality assurance, we use some open
scanned images to simulate the scanned images of paper files, simulation at
MATALB (Matrix Laboratory) software environment. The working principle of OCR
recognition software, combined with its own characteristics file management, file
format formation of digital archives were discussed, analyzed the profile of the format
requirements, compares several common file formats. Analysis of scanning files
generated noise characteristics, in particular its case generate Salt and pepper noise
and Gaussian noise, try the histogram algorithm, mean filtering, median filtering and
other image pre-processing algorithms and proposed based on median filter adaptive
algorithm. For the image processing needed to extract information using image
segmentation, there will be information on the consistency of the overall image area
extracted for analysis. Use binarization algorithm to determine the appropriate
万方数据
threshold for image information extraction, improve OCR recognition rate. Use edge
detection algorithm, image sharpening partially obscured information.
Key Words:Scan Archives, Image Processing, OCR recognition
万方数据
目 录
第一章 绪论 ........................................................................................................... 1
1.1 档案数字化的重要意义 .......................................................................... 1
1.2 档案数字化中图像处理技术的应用 ...................................................... 2
1.3 国内外研究现状 ...................................................................................... 3
1.4 本文组织结构 .......................................................................................... 4
第二章 软件运行环境与生成文件格式的选择 ................................................... 6
2.1 MATLAB 软件环境 ................................................................................. 6
2.2 OCR 系统介绍 .......................................................................................... 8
2.3 文件格式选择 .......................................................................................... 9
第三章 图像的预处理 ......................................................................................... 12
3.1 扫描档案的特点 .................................................................................... 12
3.2 常用预处理方法 .................................................................................... 14
3.2.1 灰度直方图 ................................................................................. 14
3.2.2 均值滤波 ..................................................................................... 16
3.2.3 中值滤波 ..................................................................................... 20
3.3 自适应中值滤波 .................................................................................... 24
3.3.1 噪点检测 ..................................................................................... 25
3.3.2 滤波窗口的选择 ......................................................................... 27
3.3.3 自适应中值滤波算法的实现 ..................................................... 27
3.4 本章小结 ................................................................................................ 31
第四章 图像信息提取 ......................................................................................... 32
4.1 图像分割 ................................................................................................ 32
4.2 二值化处理 ............................................................................................ 34
4.3 边缘检测 ................................................................................................ 36
4.3.1 Canny 算子检测 .......................................................................... 37
4.3.2 Laplacian 算子检测 ..................................................................... 39
4.3.3 仿真及结果分析 ......................................................................... 40
4.4 本章小结 ................................................................................................ 42
第五章 实验结果 ................................................................................................. 43
第六章 总结与展望 ............................................................................................. 44
万方数据
6.1 课题研究总结 ........................................................................................ 44
6.2 未来研究方向 ........................................................................................ 45
参考文献 ............................................................................................................... 46
致 谢 ............................................................................................................... 48
万方数据
第一章 绪论
1
第一章 绪论
档案是人们在各项社会活动中直接形成的各种形式的具有保存价值的原始
记录。特别是国家级综治档案馆保存着国家机关、团体、事业单位及个人在从事
各种社会活动中所产生的对国家和社会有价值的文章、声音、图像等信息资料,
具有很高的研究价值。同时,档案作为一种原生的信息资源,是国家信息资源的
重要组成部分,也具有不可估量的社会价值
[1]
。这些档案资料充分反映了过去各
历史时期党的领导活动情况和党的方针政策贯彻执行的全过程,真实记录了当地
各阶段的经济犯罪和生产生活、科学文化事业发展情况,丰富地积累了各单位、
各部门在职能活动中形成的大量文字材料,成为党和国家的宝贵财富。在过去和
现在的工作中未各级领导决策,为实施、开展党的中心工作及社会发展进步、改
革开放、发展经济、开展历史研究、落实党的方针、政策,维护党和群众利益、
编写党史、编写地方志等提供了参考依据,为机关、企事业单位查阅了解单位建
立情况、机构设置、人事任免情况提供参考。为解决群众生活中遇到的婚姻、养
老保险、低保、工龄、户口迁移、复退军人服役兵龄、职工招工、知情下乡回城
时间、死亡干部家属核实实际亲属关系、村级干部核实任职情况等问题提供服务。
1.1 档案数字化的重要意义
传统纸质档案也存在归档、立卷、装盒和编号时要耗费大量的人力和时间,
以一个区县级的综合档案馆为例,由于编制人员有限,而且许多档案涉内容涉密,
只能有专职人员整理,造成工作效率不高,在一年中不能完全接收行政区划内所
有单位的档案。同时,纸质档案在保管利用上也存在着诸多难以克服的缺点。一
是需要大面积的档案库房,我国的档案保管期限一般分为 10 年、30 年和永久三
个档次,但对于 10 年、30 年档案的销毁手续繁杂,许多地方在实际操作中均按
照永久档案处理,随着时间的推移造纸质档案需要占用的空间将越来越大,档案
室往往排满密集架,对纸质档案的管理需要消耗大量的精力。二是纸质档案易受
到外界因素影响。如在高温高湿的环境中,纸张会氧化,严重泛黄,墨迹也会逐
渐模糊。并且常见翻看纸质档案,也会对档案原件造成损害,使档案寿命变短。
同时,还要时刻注意防潮、防火、防虫。
万方数据
剩余48页未读,继续阅读
资源评论
programyp
- 粉丝: 86
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功