没有合适的资源?快使用搜索试试~ 我知道了~
黄政论文201703051
需积分: 0 0 下载量 72 浏览量
2022-08-08
22:34:56
上传
评论
收藏 4.14MB DOCX 举报
温馨提示
试读
57页
关键词:开放获取期刊,开放获取期刊采集,Web信息采集,元数据采集 AbstractAbcdef ghijklmnKey word: bcd, mn, xdfg
资源详情
资源评论
资源推荐
密级: 论文编号:
中国农业科学院
学位论文
论文中文题目
论文英文题目
硕 士 研 究 生:
指 导 教 师:
申 请 学 位 类 别 :×学硕士
专 业:
研 究 方 向:
培 养 单 位:××××研究所
研究生院
2016 年 月
Secrecy: No.
Chinese Academy of Agricultural Sciences
Dissertation
论文英文题目
M.S. Candidate:
Supervisor:
Major:
Specialty:
Month 2016
独 创 性 声 明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成
果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发
表或撰写过的研究成果,也不包含为获得中国农业科学院或其它教育机构的学位或证
书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了
明确的说明并表示了谢意。
研究生签名: 时间: 年 月 日
关于论文使用授权的声明
本人完全了解中国农业科学院有关保留、使用学位论文的规定,即:中国农业科
学院有权保留送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩
印或扫描等复制手段保存、汇编学位论文。同意中国农业科学院可以用不同方式在不
同媒体上发表、传播学位论文的全部或部分内容。
研究生签名: 时间: 年 月 日
导师签名: 时间: 年 月 日
中 国 农 业 科 学 院
硕士学位论文评阅人、答辩委员会签名表
论文题目
论文作者
专 业
研究方向
指导教师
培养单位(研究所、中
心)
姓名
职称
单 位
专 业
签 名
评
阅
人
答
辩
主
席
答
辩
委
员
会议记录(秘书)
论文答辩时间地点
I
摘 要
随着开放获取运动的发展,越来越多的期刊加入到开放获取行列中来。期刊发行方式由传统
的纸质出版又增加了电子出版方式。根据开放获取运动的精神,所有开放获取期刊资源都允许任
何用户对文献资源进行阅读和下载,并支持爬行器收割和用于其他任何法律允许的用途。这意味
着在互联网上存在大量高质量的期刊学术资源可以免费获取,这对于科技情报研究具有十分重要
的意义。
开放获取期刊网站为系统维护的方便性,基本上采取用的是“模版+数据”的构建形式。然而
开放获取期刊资源是由期刊机构各自进行组织然后展现着期刊网站上,不同期刊所采用的展示模
版各部相同,相同期刊所展示的资源在不同时期也有不同的组织形式,可谓是“千刊千面”。展现
形式的多变为开放获取期刊资源采集带来了一定的难度。为了改善开放获取期刊资源采集难的问
题,本文对开放获取期刊资源及其采集方法和系统实现做了一定的研究。
首先,本文对大量国内外开放获取期刊网站进行了采集调研,归纳总结出开放获取期刊资源
具有描述粒度细、描述复杂和描述载体结构多变等特点,并根据资源组织形式,将其分为单一型
资源和组合型资源。并对当前主要的采集方法进行了对比分析,总结出一套适用于开放获取期刊
资源采集的方法。
然后,为更好的设计开放获获取期刊资源采集系统,本文先从易用性和准确性两个角度,对
当前主要商用的信息采集系统在开放获取期刊资源上运用进行了对比分析。再对开放获取期刊采
集用户行为和开放获取期刊采集系统需要达到的目标进行了分析。在介绍了系统使用的相关技术
之后,对系统进行了详细的需求分析和总体设计。系统主要分为三大模块:用户交互模块、数据
采集和网页结构检查模块以及数据存储模块。系统最主要实现的功能包括可视化信息采集、采集
规则自动形成、多线程自动采集、网页结构检查等功能。
接着,对系统三大模块和主要功能点的具体实现进行了详细的介绍,并通过编码实现了系统
的具体功能。之后随机选择了十个开放获取期刊网站进行采集测试。本文事先通过爬虫脚本统计
了各期刊的论文链接数量,接着使用系统对每个期刊进行采集。在采集过程中,系统能准确的识
别出期刊网站网页结构的变化,并将结构变化后的页面反馈给用户重新进行选择和采集。系统总
共采集到了 43134 篇论文,总共花费时间为 30223 秒,平均每千篇文章采集所花费的时间为 11.68
分钟。系统采集的论文数量加上用户标注的脏页数量之和与爬虫脚本采集到的论文链接数量完全
相同,说明系统采集准确性很强。系统在功能上基本满足了采集需求。
最后,本文归纳总结了论文主要研究内容,以及系统存在的一些不足。并对下一步工作进行
了展望。开放获取期刊资源采集是开放获取期刊资源利用的第一步,也是最基础的一步。要用好
开放获取期刊资源还需要有数据清洗、数据仓库建设、数据分析平台以及数据可视化展示等一系
列工作。
关键词:开放获取期刊,开放获取期刊采集,Web 信息采集,元数据采集
剩余56页未读,继续阅读
AIAlchemist
- 粉丝: 54
- 资源: 305
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0