开放获取资源元数据采集系统需求分析报告
1. 引言
1.1 编写目的
明确开放获取资源元数据采集系统的开发目的、功能需求,进一步指导开发设计。
1.2 背景
毕业论文。
1.3 名词解释
开放获取期刊:“开放获取”,即可以在公共网络上被免费获取,允许任何用户对该
文献的全文信息进行阅读、下载、复制、分发、打印、检索、超链接,支持爬行器
收割并建立本地索引、用作软件的输入数据、用于其他任何法律允许的用途。
1.4 参考资料
2. 任务概述
由于开放获取期刊网页结果多变,抽取粒度较细,具体特点如下:
开放获取资源的描述粒度细。《NSTL 开放资源描述元数据标准规范》中对开放获取
元数据的描述定义了 7 类元素集:开放资源集合、开放资源作品、责任者、机构、
开放资源使用权益、获取来源、管理信息,而这 7 类元素集又包含了众多元数据字
段,如题名、其他题名、关键词、英文关键词、摘要、英文摘要、作者、机构、唯
一标识号、总页数、起止页、参考文献数量、年、卷、期、期刊名称、全文下载链
接等。而一般的网络信息的描述,如新闻,只需要采集标题、正文、作者、时间等
少量的几个元数据字段便可满足需求。
开放获取资源元数据描述复杂。开放获取资源元数据描述复杂主要表现在两个方面:
一是网页中元数据展示多样,即不同开放获取资源的平台网站和期刊网页所揭示的
元数据薄厚不均,二是描述元数据的网页结构多变,如在一个期刊网页中,存在网
站建立初期所采取的网页模板与现在不一致的情况。而一般的网络信息,如论坛信
息,某一个论坛网站在展示信息时采用的是同一个网页模板,不存在不同时期网页
结构不一致的情况。因此开放获取资源元数据描述更加复杂。
基于以上特点,使得当前主流的信息抽取工具无法满足抽取需求,主要表现为,无
法检测网页结构的变化,使得既定的抽取规则无法覆盖到所有的记录,造成记录的
丢失。因此设计开发一套专门适用于开放获取期刊采集的系统,增加网页结构变化
检测,优化抽取时的交互设计,提高开放获取期刊抽取准确度和易使用度。
3. 数据描述
3.1 静态数据(系统运行前已有数据)
3.2 动态数据(系统输入数据和运行输出数据)
4. 功能需求
4.1 业务流程图
评论0
最新资源