没有合适的资源?快使用搜索试试~ 我知道了~
网络搜索引擎技术的研究报告.doc
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 8 浏览量
2021-10-05
11:35:44
上传
评论
收藏 105KB DOC 举报
温馨提示
试读
18页
网络搜索引擎技术的研究报告.doc
资源推荐
资源详情
资源评论
. -
目录.....................................................................................................................................................2
摘要.....................................................................................................................................................2
Abstract................................................................................................................................................2
第 1 章绪论.........................................................................................................................................3
1.1 研究的背景与意义...............................................................................................................3
1.2 本文的构造...........................................................................................................................3
第 2 章搜索引擎技术简介.................................................................................................................4
2.1 搜索引擎的分类...................................................................................................................4
2.1.1 基于 Robot 的搜索引擎............................................................................................4
2.1.2 目录............................................................................................................................5
2.1.3 Meta 搜索引擎...........................................................................................................5
2.2 搜索引擎的主要技术...........................................................................................................6
2.2.1 搜索器........................................................................................................................6
2.2.2 索引器........................................................................................................................6
2.2.3 检索器........................................................................................................................7
2.2.4 用户接口....................................................................................................................7
2.3 搜索引擎技术的开展...........................................................................................................7
2.3.1 提高信息查询结果的精度提高检索的有效性................................................................7
2.3.2 基于智能代理的信息过滤和个性化效劳........................................................................8
2.3.3 采用分布式体系构造提高系统规模和性能...........................................................8
2.3.4 重视穿插语言检索的研究和开发............................................................................8
第 3 章 Linux 操作系统中的网络编程.............................................................................................9
3.1 Linux 简介............................................................................................................................9
3.1.1 Linux 的特点.....................................................................................................................9
3.1.2 Linux 下常用的文本编译器...................................................................................10
3.2 网络编程中的套接字〔socket〕技术..............................................................................10
第 4 章网页的获取和收集...............................................................................................................12
4.1 程序设计简介.....................................................................................................................12
4.2 网页获取的实现及 Web 相关技术...................................................................................13
4.2.1 HTTP 协议下的网页获取.......................................................................................13
4.2.2 对网页 HTML 语言的分析.....................................................................................14
4.2.3HTTP 报文及效劳器的响应....................................................................................14
第 5 章对已获取网页的分析...........................................................................................................15
5.1 网页的级别〔pagerank〕的提出......................................................................................15
5.2 网页级别的计算及调整.....................................................................................................16
5.2.1 网页级别的计算公式..............................................................................................16
5.2.2 网页级别计算中的考前须知..................................................................................17
. .zj.
. -
目录
摘要
搜索引擎〔Search Engine〕是随着 WEB 信息的迅速增加,从 1995 年开场逐渐开展起
来的技术。用户要在浩瀚的信息海洋里寻找信息是十分困难的,搜索引擎正是为了解决这
个问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进展理
解、提取、组织和处理,并为用户提供检索效劳,起到了信息导航的目的。搜索引擎技术
因而成为计算机工业界和学术界争相研究、开发的对象。本课题主要是对网络搜索引擎技
术进展简要研究,并在 Linux 下实现网页的获取,并且在互连网上进展网页的收集,然后
在此根底上,对获取的网页进展分析。其间,穿插了对套接字 socket、HTTP 协议、
HTML 语言以及网页级别〔Pagerank〕的介绍。
关键词搜索引擎网页级别 HTTP 协议 HTML 语言
效劳器/
II
Abstract
With the running up of WEB information, The search enginev technology
developed gradually since 1995. User want look for informationis very di)cult
in vast information ocean, The search engine is exactly thetechnology
appearing in order to solve this problem. Search engine collect,+nd the
information among Internet with certain tactics, Understand, draws,organize
and deal with the information, and o-er service of searching for theuser, Get
up to the purpose to navigate. Search engine technology thereforebee the
target that puter industrial circle and academia fall over eachother study,This
subject is mainly to carry on brief research to the technology of thesearch
engine of network, And realize the obtaining of the webpage underLinux, and
carry on the collecting of the webpages on Internet, Then on thebasis of this,
analyse the webpage that is obtained . Among them, weave in asocket, HTTP
agreement, HTML language and introduction of thePagerank .
Key words Search engine Pagerank HTTP HTML
. .zj.
. -
Server/client
III
第 1 章绪论
1.1 研究的背景与意义
随着因特网的迅猛开展、WEB 信息的增加,用户要在信息海洋里查找信息,就象大海捞
针一样,搜索引擎技术恰好解决了这一难题〔它可以为用户提供信息检索效劳〕。目前,
搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎〔 Search
Engine〕是随着 WEB 信息的迅速增加,从 1995 年开场逐渐开展起来的技术。据发表在?
科学?杂志 1999 年 7 月的文章?WEB 信息的可性?估计,全球目前的网页超过 8 亿,有
效数据超过 9T,并且仍以每 4 个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里
寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航"问题而出现的
技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进展理解、提取、组织
和处理,并为用户提供检索效劳,从而起到信息导航的目的。搜索引擎提供的导航效劳已
经成为互联网上非常重要的网络效劳,搜索引擎站点也被美誉为"网络门户"。搜索引擎技
术因而成为计
算机工业界和学术界争相研究、开发的对象。1993 年,Internet 上出现了最早的 Web
浏览器 Mosaic,次年 Netscape 推出了 Navigator,浏览器的开展促使 Web 得到迅速推
广,同时也推动着搜索引擎的开展。1994 年初,Internet 上出现了包括 Lycos 在内的第
一批 Web 搜索引擎,同年还成立了!,后者成为了近年来最成功的商业目录。现在
Internet 上已有数千个提供搜索效劳的站点,它们不仅要努力改良自己的效劳以便能在剧
烈的竞争中生存下来,还要努力寻求新技术以便能适应 Internet 的迅速扩 X。
1.2 本文的构造
本文是以我在探索实现中的过程为线索来组织的,插入了必要的信息介绍。大体分三局部
搜索引擎技术简介、Linux 下得网页获取及 Web 相关技术、网页的分析。其中简单介绍
了搜索引擎的分类、套接字编程、网页等级〔Pagerank〕等各种相关技术的介绍。
. .zj.
. -
第 2 章搜索引擎技术简介
2.1 搜索引擎的分类
尽管目前存在数量众多的搜索引擎,但根据它们所基于的技术原理,可以把它们分成三大
主要类型:基于 Robot 的搜索引擎、目录〔Directory,也叫做 Catalog〕和 Meta 搜索
引擎。
2.1.1 基于 Robot 的搜索引擎
这种搜索引擎的特点是利用一个称为 Robot〔也叫做 Spider、WebCrawler 或 Web
Wanderer〕的程序自动 Web 站点,提取站点上的网页,并根据网页中的进一步提取其它
网页,或转移到其它站点上。Robot 搜集的网页被参加到搜索引擎的数据库中,供用户查
询使用。Internet 上最早出现的搜索引擎就是利用 Robot 来建立数据库,"搜索引擎"这
个词的原义也只是指这种狭义上的基于 Robot 的搜索引擎。
基于 Robot 的搜索引擎由三个主要局部构成:Robot、Index 和搜索软件。Robot 从一
个事先制定好的 URLs 列表出发,这个列表中的 URLs 通常是从以往记录中提取出来的,
特别是一些热门站点和"What's New"网页,从 Usenet 等地方检索得到的 URLs 也常
被用作起始 URLs,此外,很多搜索引擎还承受用户提交的 URLs,这些 URLs 也会被安排
在列表中供 Robot。Robot 了一个网页后,会对它进展分析,提取出新的 URLs,将之
参加到列表中,如此递归地 Web。
Robot 作 为 一 个 程 序 , 可 以 用 C 、 Perl 、 Java 等 语 言 来 编 写 , 可 以 运 行 在
Unix、Solaris、Windows、NT、OS2 和 MAC 等平台上。Robot 设计是否合理将直接
影响它 Web 的效率,影响搜索数据库的质量,另外,在设计 Robot 时还必须考虑它对网
络和被站点的影响,因为 Robot 一般都运行在速度快、带宽高的主机上,如果它快速一个
速度比拟慢的目标站点,
就有可能会导致该站点出现阻塞甚至当机。Robot 还应遵守一些协议,以便被站点的管理
员能够确定哪些内容能被,哪些不能。Index 是一个庞大的数据库,Robot 提取的网页将
被放入到 Index 中以便建立索引,不同的搜索引擎会采取不同方式来建立索引,有的对整
个 HTML 文件的所有单词都建立索引,有的只分析 HTML 文件的标题或前几段内容,还
有的能处理 HTML 文件中的 META 标记或其它不可见的特殊标记。基于 Robot 的搜索引
擎一般要定期大多数以前搜集的网页,刷新 Index,以反映出网页的更新情况,去除一些
死,网页的局部内容和变化情况将会反映到用户查询的结果中,这是基于 Robot 的搜索引
擎的一个重要特征。
Index 在建立索引时,一般会给网页中每个关键词赋予一个等级值,表示该网页与关键词
之间的符合程度。当用户查询一个关键词时,搜索软件将搜索 Index,找出所有与关键词
相符合的网页,有时候这些网页可能有成千上万,等级值的用途就是作为一种排序的依据
. .zj.
剩余17页未读,继续阅读
资源评论
pyhm63
- 粉丝: 6
- 资源: 20万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 2023-04-06-项目笔记 - 第一百五十四阶段 - 4.4.2.152全局变量的作用域-152 -2024.06.04
- 松哥解协议松哥解协议松哥解协议松哥解协议松哥解协议
- 618节日618节日618节日
- tensorflow-gpu-2.9.1-cp37-cp37m-win-amd64.whl
- tensorflow-gpu-2.9.0-cp37-cp37m-win-amd64.whl
- tensorflow-gpu-2.9.0-cp39-cp39-win-amd64.whl
- lcd daimalcd daima
- 电影领域-推荐算法-个性化内容-观影决策-电影推荐小程序.zip
- 电气控制PLC考试题库
- 如何使用MATLAB简介
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功