图像
·
编码与软件
2014
年第
27
卷第
2
期
Electronic Sci. & Tech. /Feb. 15,2014
www. dianzikej i. org
收稿日期
: 2013-01-28
作者简介
:
蒋从文
( 1990— ) ,
男
,
硕士研究生
。
研究方向
:
网络信息系统开发
。E-mial: jiangcongwen110@ 163. com。
李隐
峰
( 1974— ) ,
男
,
副教授
。
研究方向
: Web
信息系统
,
网络
安全
。
齐鹏
( 1987— ) ,
男
,
硕士研究生
。
研究方向
:
网络信
息系统开发
。
杨志英
( 1991—) ,
男
,
硕士研究生
。
研究方向
:
网络信息系统开发
。
学术期刊电子论文检索系统设计
蒋从文
,
李隐峰
,
齐 鹏
,
杨志英
(
西安电子科技大学 电子工程学院
,
陕西 西安
710071)
摘 要 设计了一种能将各个学术期刊网站上的电子论文信息采集到一个统一的数据库中并提供检索的系统
。
系
统分为数据采集
、
数据分析和存储
、
数据检索
3
个模块
。
前两个模块负责将互联网上电子论文的内容结构化存储到本
地数据库
,
最后一个模块负责对数据库内容生成索引并提供查询
。
目前
,
该系统已存有
150
万篇中文期刊论文
。
关键词 数据采集
;
数据检索
; Sphinx;
全文索引
中图分类号
TP274
+
. 2
文献标识码
A
文章编号
1007 - 7820( 2014) 02 - 122 - 03
The Design of Academic Journal Electronic Papers Retrieval System
JIANG Congwen,LI Yinfeng,QI Peng,YANG Zhiying
( School of Electronic Engineering,Xidian University,Xi'an 710071,China)
Abstract Many academic journal have website on internet,so more people can search papers from it. This pa-
per designs a system for collecting the electronic papers on websites to a database and providing retrieval service. The
system has three modules. They are data acquisition,data analysis and storage,data retrieval. The first two modules
are responsible for the storage of structured electronic paper on the Internet to the local database,The last one is re-
sponsible f or the generation of database index and providing retrieval service. There have 1. 5 million electronic papers
in this system.
Keywords data acquisition; data retrieval; Sphinx; full-text index
互联网上散落着海量的电子论文
,
它们分布在不
同的期刊站点
,
要在最短的时间内查询到最多的期刊
论文并不容易
。
本系统目的就是将分散在各处的电子
论文整合到一个数据库中
,
并提供统一的查询接口
,
方
便用户在更大的范围内查找所需内容
,
提高查询效率
,
同时也增加了电子论文潜在的读者
。
1
系统设计
1. 1
系统总体结构
整个系统是基于
B /S
架构的
,
分为数据采集
、
数
据分析和存储
、
数据检索
3
个模块
,
符合软件设计低
耦合原则
。
这
3
个模块可以工作在不同的计算机
上
,
形成一个分布式系统
。3
个模块的结构如图
1
所示
。
系统工作流程
:
首先通过数据采集模块将期刊站
点服务器上的
HTML
页面获取到本地
,
然后数据分析
图
1
系统结构图
模块会对
HTML
网页进行解析
,
提取
HTML
网页中需
要的论文基本信息
,
之后存入数据库
。
由于存储的数
据量规模比较大
,
纯粹利用数据库的索引加快查询速
度已不现实
,
因此增加数据检索模块对数据库建立单
独的索引
,
这样用户输入查找关键字后不会直接去查
询数据库
,
而是去查询数据检索模块建立的索引
,
再由
单独的索引得到查询结果返回给用户
。
1. 2
数据采集模块
数据采集模块也叫网路爬虫
,
是系统中关键且基
础的构件
[1]
。
它要将网页
HTML
数据下载到本地以供
之后的进一步处理
。
本系统要采集的具体目标有两
类
:
由电子期刊站点自带检索接口查询得到的结果页
面和结果页面里每篇电子论文的详情页面
。
网络爬虫
会采集结果页面里的每篇论文
,
然后转到下一个结果
页面继续采集
,
直到所有结果页面采集完毕
,
则该站点
采集完毕
,
转到下一个期刊站点
。
整个采集过程使用
的是一种深度优先的采集策略
。
采集目标的树状图如
图
2
所示
。
221
DOI:10.16180/j.cnki.issn1007-7820.2014.02.038
评论0