【免费】学术期刊电子论文检索系统设计_蒋从文1_如何查中文论文检索号资源-CSDN文库

需积分: 0 144 浏览量 2022-08-04 13:49:17 上传评论收藏 263KB PDF 举报

随着信息技术的快速发展，学术资源的数字化程度日益加深，电子论文成为学术交流的重要载体。然而，面对分散在不同学术期刊网站上的海量电子论文资源，如何实现便捷、高效的检索，一直是学术界关注的焦点。为解决这一问题，蒋从文、李隐峰、齐鹏、杨志英四位学者于2014年提出了《学术期刊电子论文检索系统设计》这一创新设计，旨在通过技术手段，整合各个学术期刊网站上的电子论文信息，并提供统一、高效的检索服务。该系统的提出，不仅仅是对检索技术的一种改进，更是对学术资源管理方式的一次革新。系统的构建分为三个主要模块：数据采集、数据分析和存储、数据检索，每一个模块都承载着系统高效运作的关键。首先是数据采集模块，它采用先进的网络爬虫技术，能够从互联网上各个学术期刊网站上抓取所需的HTML页面。这一过程的实现，类似于对网络信息进行抓取和下载，为后续的数据处理打下基础。然而，简单的数据采集仅仅是第一步，如何处理这些数据，使其变得有价值，是系统设计中需要解决的核心问题。为了解决这个问题，系统设计了数据分析和存储模块。该模块负责对采集来的HTML内容进行解析，从中抽取出论文的基本信息，如作者、标题、摘要等，并将这些信息结构化存储到本地数据库中。为应对大数据的挑战，系统采用了分布式架构，允许数据采集、分析和存储在不同的计算设备上同时运行。这种设计不仅提高了数据处理的效率，而且也增强了系统的稳定性和可扩展性。数据检索模块是整个系统中最为关键的部分。在大数据的背景下，单纯依靠数据库的索引很难满足用户对快速查询的需求。因此，该模块在数据库的基础上创建了独立的全文索引。通过使用全文搜索引擎工具Sphinx，当用户输入查询关键词时，系统直接查询索引，从而提高了查询速度和响应效率。据文献介绍，该系统已经成功存储了150万篇中文期刊论文，这一成果不仅展现了系统的强大数据处理能力，也极大地提升了检索效率。系统总体结构采用了浏览器/服务器（B/S）模式，用户仅需通过浏览器即可访问系统，无需安装额外的客户端软件，这极大降低了用户的使用门槛。同时，系统在设计时充分考虑了软件的低耦合原则，确保了各模块之间相互独立，便于维护和扩展。文章中还提到，在当前信息爆炸的时代背景下，学术资源的分散性和海量性给研究者带来了极大的挑战。该电子论文检索系统的设计，有效解决了信息整合的难题，通过集中管理和高效检索，极大地提高了学术资源的可访问性和利用效率。对于科研工作者和学者来说，这个系统无疑具有极高的实用价值。同时，该系统的设计思路和实现方法，也为其他类似的大数据检索应用提供了宝贵的参考和借鉴。《学术期刊电子论文检索系统设计》不仅为学术论文检索领域提供了一种新的解决方案，更为信息时代的学术交流贡献了重要力量。随着技术的不断进步，未来该系统有望进一步优化，为学术研究提供更为精准和便捷的服务。

资源详情

资源评论

资源推荐

图像

编码与软件

2014

年第

卷第

期

Electronic Sci. ＆ Tech. /Feb. 15，2014

www. dianzikej i. org

收稿日期

： 2013-01-28

作者简介

：

蒋从文

（ 1990— ），

男

，

硕士研究生

。

研究方向

：

网络信息系统开发

。E-mial： jiangcongwen110@ 163. com。

李隐

峰

（ 1974— ），

男

，

副教授

。

研究方向

： Web

信息系统

，

网络

安全

。

齐鹏

（ 1987— ），

男

，

硕士研究生

。

研究方向

：

网络信

息系统开发

。

杨志英

（ 1991—），

男

，

硕士研究生

。

研究方向

：

网络信息系统开发

。

学术期刊电子论文检索系统设计

蒋从文

，

李隐峰

，

齐鹏

，

杨志英

（

西安电子科技大学电子工程学院

，

陕西西安

710071）

摘要设计了一种能将各个学术期刊网站上的电子论文信息采集到一个统一的数据库中并提供检索的系统

。

系

统分为数据采集

、

数据分析和存储

、

数据检索

个模块

。

前两个模块负责将互联网上电子论文的内容结构化存储到本

地数据库

，

最后一个模块负责对数据库内容生成索引并提供查询

。

目前

，

该系统已存有

150

万篇中文期刊论文

。

关键词数据采集

；

数据检索

； Sphinx；

全文索引

中图分类号

TP274

. 2

文献标识码

文章编号

1007 － 7820（ 2014） 02 － 122 － 03

The Design of Academic Journal Electronic Papers Ｒetrieval System

JIANG Congwen，LI Yinfeng，QI Peng，YANG Zhiying

（ School of Electronic Engineering，Xidian University，Xi'an 710071，China）

Abstract Many academic journal have website on internet，so more people can search papers from it. This pa-

per designs a system for collecting the electronic papers on websites to a database and providing retrieval service. The

system has three modules. They are data acquisition，data analysis and storage，data retrieval. The first two modules

are responsible for the storage of structured electronic paper on the Internet to the local database，The last one is re-

sponsible f or the generation of database index and providing retrieval service. There have 1. 5 million electronic papers

in this system.

Keywords data acquisition； data retrieval； Sphinx； full-text index

互联网上散落着海量的电子论文

，

它们分布在不

同的期刊站点

，

要在最短的时间内查询到最多的期刊

论文并不容易

。

本系统目的就是将分散在各处的电子

论文整合到一个数据库中

，

并提供统一的查询接口

，

方

便用户在更大的范围内查找所需内容

，

提高查询效率

，

同时也增加了电子论文潜在的读者

。

系统设计

1. 1

系统总体结构

整个系统是基于

B /S

架构的

，

分为数据采集

、

数

据分析和存储

、

数据检索

个模块

，

符合软件设计低

耦合原则

。

这

个模块可以工作在不同的计算机

上

，

形成一个分布式系统

。3

个模块的结构如图

所示

。

系统工作流程

：

首先通过数据采集模块将期刊站

点服务器上的

HTML

页面获取到本地

，

然后数据分析

图

系统结构图

模块会对

HTML

网页进行解析

，

提取

HTML

网页中需

要的论文基本信息

，

之后存入数据库

。

由于存储的数

据量规模比较大

，

纯粹利用数据库的索引加快查询速

度已不现实

，

因此增加数据检索模块对数据库建立单

独的索引

，

这样用户输入查找关键字后不会直接去查

询数据库

，

而是去查询数据检索模块建立的索引

，

再由

单独的索引得到查询结果返回给用户

。

1. 2

数据采集模块

数据采集模块也叫网路爬虫

，

是系统中关键且基

础的构件

［1］

。

它要将网页

HTML

数据下载到本地以供

之后的进一步处理

。

本系统要采集的具体目标有两

类

：

由电子期刊站点自带检索接口查询得到的结果页

面和结果页面里每篇电子论文的详情页面

。

网络爬虫

会采集结果页面里的每篇论文

，

然后转到下一个结果

页面继续采集

，

直到所有结果页面采集完毕

，

则该站点

采集完毕

，

转到下一个期刊站点

。

整个采集过程使用

的是一种深度优先的采集策略

。

采集目标的树状图如

图

所示

。

221

DOI:10.16180/j.cnki.issn1007-7820.2014.02.038

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

评论收藏

内容反馈

MurcielagoS

粉丝: 20
资源: 319

学术期刊电子论文检索系统设计_蒋从文1

评论0

最新资源

学术期刊电子论文检索系统设计_蒋从文1

评论0

电子文件涉密关键词检索系统的设计与实现

基于web的书库检索系统毕业(论文)设计.doc

图像检索系统的设计与实现本科生毕业设计论文.pdf

ASP局域网文件共享及检索系统的设计与开发(源代码+论文).rar

图像检索系统的设计与实现本科生毕业设计论文(20210809123529).pdf

毕业设计论文-源码-医疗纠纷检索系统(设计源码).zip

ASP局域网文件共享及检索系统的设计与开发(源代码+论文).zip

电子图书馆碎片化阅读快速检索系统设计.docx

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

BurpLoaderKeygen.jar.zip

Chrome Header Editor 插件

Goby红队版-win-x64-2.4.7版本

软件工程导论(第六版)课后习题答案1

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

OpenVAS离线资源

最新资源