没有合适的资源?快使用搜索试试~ 我知道了~
基于PARADISE平台论文检索系统.docx
需积分: 5 0 下载量 2 浏览量
2024-06-21
00:18:57
上传
评论
收藏 339KB DOCX 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/89463264/0001-5b45c71ebb55bbfcf41189af6670dd80_thumbnail-wide.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
33页
基于PARADISE平台论文检索系统.docx
资源推荐
资源详情
资源评论
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/release/download_crawler_static/89463264/bg1.jpg)
本 科 生 毕 业 论 文
题目:基 于 PARADISE 平 台 论 文 检 索 系 统
姓 名: xx
学 号:
院 系: 信息科学技术学院
专 业: 计算机科学与技术系
指导教师: xxx 副教授
二〇二四年六月二十一日
![](https://csdnimg.cn/release/download_crawler_static/89463264/bg2.jpg)
摘要:
本 文 基 于 天 网 实 验 室 的 Platform for Applying, Researching And
Developing Intelligent Search Engine (PARADISE)搜索引擎平台,通过以从
portal.acm.org 抓取的计算机网络方向的 2500 多篇论文为数据,搭建成一个论
文搜索系统,最终目的是通过论文之间的引用关系,获得其他引用这篇论文的作
者对这篇论文的评价,形成一个小的评价段落,以及 Impact-based Summaries,
从而使得我们能够从专业级的角度获得这篇论文的内容以及优劣。我们首先根据
portal.acm.org 上面抓取了文章之间的引用关系,然后通过一个算法获得了对
一篇文章评价的候选句子集,根据这些句子的重要程度进行排序,获得一个评价
短文。并且构建了一个语言模型,通过这些候选句子集对原文的句子进行评分,
取得分最高的几个句子,获得原文基于影响的概括。
关键词
搜索引擎, 论文评价, 语言模型, KL-divergence 算法, 基于影响的概括
![](https://csdnimg.cn/release/download_crawler_static/89463264/bg3.jpg)
Abstract
In this paper, based on the PARADISE (Platform for Applying,
Researching and Developing Intelligent Search Engine) and the data of 2500
paper in area of computer network, we construct a search engine of papers.
Our goal is to get the comment and impact-based summaries of one paper
based on the reference relations between the papers. We firstly get
candidate sentence which comment on the previous paper and generate a
citation context. Then we construct a Language Model, through the citation
context, we can score the sentence in the previous paper, and get the
impact-based summaries.
Key words
Search Engine, Paper Comment, Language Model, KL-divergence Scoring,
Impact-based Summaries
![](https://csdnimg.cn/release/download_crawler_static/89463264/bg4.jpg)
4
目录
第 1 章 引言 ....................................................................................................................................1
1.1 研究背景 ...........................................................................................................................1
1.2 工作内容 ...........................................................................................................................2
1.2.1 抓取所需要的论文数据........................................................................................2
1.2.2 获得一篇论文的评价并较好的显示出来............................................................2
1.2.3 获得一篇论文基于影响的总结段落....................................................................3
1.2.4 基于 PARADISE 平台搭建搜索平台......................................................................3
1.3 实验的意义 .......................................................................................................................3
第 2 章 数据的收集 ........................................................................................................................5
2.1 如何提取数据 ...................................................................................................................5
2.2 数据抓取的过程 ...............................................................................................................6
2.3 数据的存储及解析 ...........................................................................................................7
第 3 章 生成评论集 ......................................................................................................................10
3.1 获得评价的候选句子集 .................................................................................................10
3.2 获得评论段落 .................................................................................................................11
第 4 章 建立模型并生成基于影响的概括...................................................................................13
4.1 建模之前我们所有的数据..............................................................................................13
4.2 建模算法 .........................................................................................................................13
4.3 算法的实现 .....................................................................................................................14
4.4 获得基于影响的概括 .....................................................................................................15
第 5 章 搭建搜索引擎 ..................................................................................................................16
5.1 paradise 结构简介 .......................................................................................................16
5.2 修改索引部分 .................................................................................................................17
5.3 修改前台部分 .................................................................................................................18
5.4 系统示意图 .....................................................................................................................19
5.4.1 主界面 .................................................................................................................19
5.4.2 搜索结果界面 .....................................................................................................20
5.4.3 评论界面 .............................................................................................................21
第 6 章 实验结果与分析 ..............................................................................................................22
6.1 实验结果 .........................................................................................................................22
6.2 具体分析 .........................................................................................................................22
第 7 章 后续工作 ..........................................................................................................................26
第 8 章 致谢 ..................................................................................................................................27
![](https://csdnimg.cn/release/download_crawler_static/89463264/bg5.jpg)
1
第 1 章 引言
1.1 研究背景
如今,全世界范围内学术活动日益积极,所产生的论文也在不断增多,因此,
如何搜索到自己所需要的论文,以及自动获取一些关于论文的信息,是客观需要
的。学术检索,绝不简简单单的检索出所要查找的论文,这样就和普通的通用搜
索引擎如 google 等一样了。学术检索,更侧重于深层次的内容挖掘。
例如,可以通过一篇论文所引用的文章以及所属领域,寻找出这个文章所在
领域的主要论文,这对了解一篇论文的背景知识以及理解一个领域的发展非常重
要。在[1]
1
(L. Gwenn Volkert)中提到了文献检索现在主要的发展方向,有以下
几点:1.提高检索的质量,这是从语言模型的角度,让人们更加准确的找到所需
要的论文。2.找到相关领域的最主要论文,以及一些较 权威的作者,帮助读者
了解相关知识。3.从 reference 和 citation 角度,挖掘出一些知识,最常见的,
就是通过一篇论文的被引用次数确定它的 排名以及影响力。
我们知道,国外的 PHD 学生在第一年的学习之后都是要通过 QE 考试的,考
试的形式一般是先读几十篇论文,然后根据这些论文的内容进行一些答辩。这时
候,他们往往很想知道别人是如何评价这篇论文的,这篇论文有什么优点和缺点,
有什么后续的研究等等。这就像我们准备去一个地方去旅游,不仅需要该景点本
身的介绍(有点类似于摘要),往往更想知道去过这个地方的人都是如何评价这
些地方的。通过对这篇论文的评价,我们可以从更专业并且更加广阔的角度获得
这篇论文的一些信息,并且可以知道这篇论文之后可以做哪些事情。
基于上面的观点,我们就准备做出这样一个知识提取系统,通过这个系统,
可以自动获得别人对这篇论文的评价[2]
2
,以及论文中的一些较有影响力的信息,
从而帮助人们更好的理解这篇论文。整体流程如[图表 1]。
在[3]
3
(Qiaozhu Mei, ChengXiang Zhai)中,作者利用 KL-divergence 算法建
立了一个模型,生成了一篇论文基于影响的概括,但是它并没有强调评论的重要
性(这里的评论,是指别的作者对它引用的一篇文章的评 论),它只讲评论当
成一个中间状态,当成一个求得基于影响的概括的手段。实际上,这些评论和最
终经过 KL 算法形成的概括是同等重要的,有时候,它甚至比后者更加清晰易懂。
本文相对于[3]
3
的优点是,赋予评论以及概括同等重要的意义,并且形成了一个
实际的系统供人使用,而不仅仅是用于研究。
剩余32页未读,继续阅读
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/default.jpg!1)
沐子启
- 粉丝: 13
- 资源: 159
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)