没有合适的资源?快使用搜索试试~ 我知道了~
推广工程数字资源联合建设地方文献数字化加工规则(2015).pdf
0 下载量 74 浏览量
2023-07-05
22:35:34
上传
评论
收藏 1007KB PDF 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/88004179/0001-935fcf2a606b141a02db03d0a1af87a2_thumbnail.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
33页
推广工程数字资源联合建设地方文献数字化加工规则(2015).pdf
资源推荐
资源详情
资源评论
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/release/download_crawler_static/88004179/bg1.jpg)
下载可编辑
推广工程数字资源联合建设地方文献数字
化加工规则(2015)
1 术语和定义
1.1 双层 PDF
将标准资料通过扫描仪快速录入后,经过去污、纠偏和 OCR 识别,
直接生成的可检索的 PDF 文件。该文件是双层的,上层是原始图像,
下层是识别结果。
1.2 单版 TXT 文件
由图像数据一一对应进行文本转换得到的 TXT 文件。一个单版
TXT 文件对应一个图像文件。
1.3 合并版 TXT 文件
将单版 TXT 文件按顺序合并得到一册书的完整 TXT 文件。
2 图像数字化和命名规则
2.1 图像数字标准
2.1.1 扫描标准
(1)黑白页和灰度页用灰度方式扫描
色彩位深:8 位
分辨率:300 dpi;小于 5 号字体用 400 dpi
档案典藏级格式:TIFF 不压缩
(2)彩色页用彩色方式扫描
色彩位深:24 位
.专业.整理.
![](https://csdnimg.cn/release/download_crawler_static/88004179/bg2.jpg)
下载可编辑
分辨率:300 dpi;小于 5 号字体用 400 dpi
档案典藏级格式:TIFF 不压缩
2.1.2 拍照标准
像素:不小于 300 万
档案典藏级格式:TIFF 不压缩
2.2 数字化要求
数字化环境注意防护光源,避免透光或反射光的影响。
数字化后的图像清晰,文件页码连续,没有重页、缺页、错页等
情况(原书缺页、错页除外)。补扫的图像要与同册图像文件的大小
一致,颜色接近。
(1)以原文献的上边沿为基准,保持原文献的天头、地脚的尺寸不
变,左右两边的尺寸基本不变。
(2)数字图像放大至实际尺寸 100%,图像不失真。
(3)数字图像文件与文献原件颜色不一致,须先进行设备色彩校正,
再重新进行扫描或拍照工作。
2.3 数字图像处理要求
数字图像处理是在未改变原扫描图像的色彩、分辨率、格式、压
缩等情况下进行。数字图像文件处理容及要求如下:
(1)纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可
以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯。
(2)图像剪裁。图像保留到文献的外边缘。
(3)不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量
.专业.整理.
![](https://csdnimg.cn/release/download_crawler_static/88004179/bg3.jpg)
下载可编辑
减少对图像文件的后期处理。
2.4 数字图像检查要求
根据本项目要求,数字化单位检查各级别图像数据的质量,建议
扫描完成后立即进行质检。数据检查的容和要求如下:
(1)图像文件(各种格式)放大到1:1 状态,逐页检查。检查文件
是否有透光、透字、彩点、彩线、太淡、太浓、黑边、污点、歪斜、
模糊(马赛克等)或图像容不完整等现象。若不符合图像质量要求应
进行图像校正或重新扫描(拍照)。
(2)发现文件漏扫时,应及时补扫并正确插入图像。
(3)拼接图像接缝处无错位、无缝吻合,不应出现白边和容缺失,
没有明显的歪斜。
(4)检查是否符合扫描(拍照)规格要求和技术参数。
(5)所有文件保存位置正确,可以有效打开和显示。
(6)图像名称必需正确,同一数据流水号不得有跳号情况,按顺序
排列命名,图像文件的排列顺序应与原文献一致。
2.5 命名规则
2.5.1 加工编号(book_id)
文献数字化加工过程中一册文献的唯一标识,它由 11 位数字和
1 位下划线组成。
文献基本资料类型(1 位)、文献语种(1 位)、加工年(2 位)、
代码(4 位)、下划线(1 位)、单位部流水号(3 位)。
本规则针对图书的文献基本资料类型为 0,文献语种为 1,加工
.专业.整理.
![](https://csdnimg.cn/release/download_crawler_static/88004179/bg4.jpg)
下载可编辑
年为公元年后两位数字(15 年项目统一为 15),代码见《推广工程数
字资源联合建设代码》,单位部流水号由各单位自行分配,从 1 开始,
不足 3 位以 0 补齐。
例:01150101_001
2.5.2 图像文件名
(1)前封(含封一、封二)
扫描文件名为 Axxxxx_00,其中 xxxxx 为 5 位数字,按原书顺序
依次排序。
(2)前附页
目录页之前的前附页扫描文件名为 Bxxxxx_00,其中 xxxxx 为 5
位数字,按原书顺序依次排序。
目录页之后的前附页扫描文件名为 Dxxxxx_00,其中 xxxxx 为 5
位数字,按原书顺序依次排序。
(3)目录页
扫描文件名为 Cxxxxx_00,其中 xxxxx 为 5 位数字,按原书顺序
依次排序。
(4)正文
有页码的正文扫描文件名为 Txxxxx_00,其中 xxxxx 为 5 位数字,
与原书页号一致,按原书顺序依次排序。
正文中插页扫描文件名为 Txxxxx_yy,其中 xxxxx 为 5 位数字,
表示插页的前一页顺序号,yy 为数字,表示插页,并按原书顺序依次
排序。
.专业.整理.
![](https://csdnimg.cn/release/download_crawler_static/88004179/bg5.jpg)
下载可编辑
(5)后附页
扫描文件名为 Yxxxxx_00,其中 xxxxx 为 5 位数字,按原书顺序
依次排序。
(6)后封(含封三、封四)
扫描文件名为 Zxxxxx_00,其中 xxxxx 为 5 位数字,按原书顺序
依次排序。
3 双层 PDF 标准
3.1 双层 PDF 输出
将处理完成后的 TIFF 图像进行 OCR 逐页识别校对。采用图在文
上的模式进行双层 PDF 输出,包括单版 PDF 和合并版 PDF 两种,单版
PDF 命名与对应 TIFF 文件保持一致,合并版的命名同该文献的加工
编号。
PDF 文件根据图像尺寸、颜色、数据存储量、按 JPEG2000 有损
压缩,压缩因子适度动态调整,在确保图像清晰的情况下,尽量压缩
图像文件所占空间至最小。
3.2 PDF 目录提取
将输出后的双层 PDF 进行目录标签提取,提取级别上限为三级。
提取过程中应按照原书页面顺序进行提取,不可出现章节丢失或级别
划分错误等情况。
3.3 PDF 文件质量要求
(1)双层 PDF 数据需完整,避免缺页、重页、页码顺序颠倒等问题。
(2)双层 PDF 文件的图像层和文字层的文字对位准确,反显区域与
.专业.整理.
剩余32页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/default.jpg!1)
hhappy0123456789
- 粉丝: 64
- 资源: 5万+
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)