下载 >  开发技术 >  Web开发 > 一种可扩展的高效链接提取模型的实现和验证_苏杭_北京大学学士论文

一种可扩展的高效链接提取模型的实现和验证_苏杭_北京大学学士论文

2009-07-08 上传大小:346KB
随着WWW(World Wide Web)越来越广泛的发展与应用,搜索引擎已经成为人们从中查找信息的重要工具;在搜索引擎的系统实现中,如何通过链接提取发现更多更广的Web资源又是影响搜索引擎性能的重要因素之一。
本文总结了设计链接提取模块所要求的“容错性”、“正确性”、“全面性”、“高效性”和“可扩展性”等五个目标,并从这些角度去分析传统的链接提取方法的不足,并作为改进,提出了一种新的设计思路。
本文将链接提取的过程划分为信息提取,信息加工,信息分析以及信息储存四个过程来进行研究。信息的获取通过HTML文法分析方法从文档中得到初始URI(Uniform Resource Indetifier)数据;信息加工阶段通过运用URI解析算法对初始数据进行精练;然后在信息分析过程中进一步地筛选与过滤;最后将结果存储在一个双链表结构中。
基于上述方法,本文实现了一个新的链接提取模型,并将该模型运用于北京大学天网WWW搜索引擎;在获得足够的实验数据之后,全面的比较了这种新的链接提取模式与传统方法在各项指标上的优劣。结果表明该模型有明显的优势。
综合评分:0(2位用户评分)
开通VIP C币充值 立即下载

评论共有0条

登录后才能评论

 
关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

一种可扩展的高效链接提取模型的实现和验证_苏杭_北京大学学士论文

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
(仅够下载10个资源)
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
C币充值 开通VIP
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • 举报的资源分:
  • *类型:
  • *详细原因: