网络搜索引擎技术的研究报告.doc资源-CSDN文库

版权申诉

8 浏览量 2021-10-05 11:35:44 上传评论收藏 105KB DOC 举报

资源推荐

资源详情

资源评论

.                                                                          -
目录.....................................................................................................................................................2
摘要.....................................................................................................................................................2
Abstract................................................................................................................................................2
第 1 章绪论.........................................................................................................................................3
1 研究的背景与意义...............................................................................................................3
2 本文的构造...........................................................................................................................3
第 2 章搜索引擎技术简介.................................................................................................................4
1 搜索引擎的分类...................................................................................................................4
1.1 基于 Robot 的搜索引擎............................................................................................4
1.2 目录............................................................................................................................5
1.3 Meta 搜索引擎...........................................................................................................5
2 搜索引擎的主要技术...........................................................................................................6
2.1 搜索器........................................................................................................................6
2.2 索引器........................................................................................................................6
2.3 检索器........................................................................................................................7
2.4 用户接口....................................................................................................................7
3 搜索引擎技术的开展...........................................................................................................7
3.1 提高信息查询结果的精度提高检索的有效性................................................................7
3.2 基于智能代理的信息过滤和个性化效劳........................................................................8
3.3 采用分布式体系构造提高系统规模和性能...........................................................8
3.4 重视穿插语言检索的研究和开发............................................................................8
第 3 章 Linux 操作系统中的网络编程.............................................................................................9
1 Linux 简介............................................................................................................................9
1.1 Linux 的特点.....................................................................................................................9
1.2 Linux 下常用的文本编译器...................................................................................10
2 网络编程中的套接字〔socket〕技术..............................................................................10
第 4 章网页的获取和收集...............................................................................................................12
1 程序设计简介.....................................................................................................................12
2 网页获取的实现及 Web 相关技术...................................................................................13
2.1 HTTP 协议下的网页获取.......................................................................................13
2.2 对网页 HTML 语言的分析.....................................................................................14
2.3HTTP 报文及效劳器的响应....................................................................................14
第 5 章对已获取网页的分析...........................................................................................................15
1 网页的级别〔pagerank〕的提出......................................................................................15
2 网页级别的计算及调整.....................................................................................................16
2.1 网页级别的计算公式..............................................................................................16
2.2 网页级别计算中的考前须知..................................................................................17
.                                                                              .zj.

. -

摘要

搜索引擎〔Search Engine〕是随着 WEB 信息的迅速增加，从 1995 年开场逐渐开展起

来的技术。用户要在浩瀚的信息海洋里寻找信息是十分困难的，搜索引擎正是为了解决这

个问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进展理

解、提取、组织和处理，并为用户提供检索效劳，起到了信息导航的目的。搜索引擎技术

因而成为计算机工业界和学术界争相研究、开发的对象。本课题主要是对网络搜索引擎技

术进展简要研究，并在 Linux 下实现网页的获取，并且在互连网上进展网页的收集，然后

在此根底上，对获取的网页进展分析。其间，穿插了对套接字 socket、HTTP 协议、

HTML 语言以及网页级别〔Pagerank〕的介绍。

关键词搜索引擎网页级别 HTTP 协议 HTML 语言

效劳器/

Abstract

With the running up of WEB information, The search enginev technology

developed gradually since 1995. User want look for informationis very di)cult

in vast information ocean, The search engine is exactly thetechnology

appearing in order to solve this problem. Search engine collect,+nd the

information among Internet with certain tactics, Understand, draws,organize

and deal with the information, and o-er service of searching for theuser, Get

up to the purpose to navigate. Search engine technology thereforebee the

target that puter industrial circle and academia fall over eachother study,This

subject is mainly to carry on brief research to the technology of thesearch

engine of network, And realize the obtaining of the webpage underLinux, and

carry on the collecting of the webpages on Internet, Then on thebasis of this,

analyse the webpage that is obtained . Among them, weave in asocket, HTTP

agreement, HTML language and introduction of thePagerank .

Key words Search engine Pagerank HTTP HTML

. .zj.

. -

Server/client

III

第 1 章绪论

1.1 研究的背景与意义

随着因特网的迅猛开展、WEB 信息的增加，用户要在信息海洋里查找信息，就象大海捞

针一样，搜索引擎技术恰好解决了这一难题〔它可以为用户提供信息检索效劳〕。目前，

搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎〔 Search

Engine〕是随着 WEB 信息的迅速增加，从 1995 年开场逐渐开展起来的技术。据发表在?

科学?杂志 1999 年 7 月的文章?WEB 信息的可性?估计，全球目前的网页超过 8 亿，有

效数据超过 9T，并且仍以每 4 个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里

寻找信息，必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航"问题而出现的

技术。搜索引擎以一定的策略在互联网中搜集、发现信息，对信息进展理解、提取、组织

和处理，并为用户提供检索效劳，从而起到信息导航的目的。搜索引擎提供的导航效劳已

经成为互联网上非常重要的网络效劳，搜索引擎站点也被美誉为"网络门户"。搜索引擎技

术因而成为计

算机工业界和学术界争相研究、开发的对象。1993 年，Internet 上出现了最早的 Web

浏览器 Mosaic，次年 Netscape 推出了 Navigator，浏览器的开展促使 Web 得到迅速推

广，同时也推动着搜索引擎的开展。1994 年初，Internet 上出现了包括 Lycos 在内的第

一批 Web 搜索引擎，同年还成立了！，后者成为了近年来最成功的商业目录。现在

Internet 上已有数千个提供搜索效劳的站点，它们不仅要努力改良自己的效劳以便能在剧

烈的竞争中生存下来，还要努力寻求新技术以便能适应 Internet 的迅速扩 X。

1.2 本文的构造

本文是以我在探索实现中的过程为线索来组织的，插入了必要的信息介绍。大体分三局部

搜索引擎技术简介、Linux 下得网页获取及 Web 相关技术、网页的分析。其中简单介绍

了搜索引擎的分类、套接字编程、网页等级〔Pagerank〕等各种相关技术的介绍。

. .zj.

. -

第 2 章搜索引擎技术简介

2.1 搜索引擎的分类

尽管目前存在数量众多的搜索引擎，但根据它们所基于的技术原理，可以把它们分成三大

主要类型：基于 Robot 的搜索引擎、目录〔Directory，也叫做 Catalog〕和 Meta 搜索

引擎。

2.1.1 基于 Robot 的搜索引擎

这种搜索引擎的特点是利用一个称为 Robot〔也叫做 Spider、WebCrawler 或 Web

Wanderer〕的程序自动 Web 站点，提取站点上的网页，并根据网页中的进一步提取其它

网页，或转移到其它站点上。Robot 搜集的网页被参加到搜索引擎的数据库中，供用户查

询使用。Internet 上最早出现的搜索引擎就是利用 Robot 来建立数据库，"搜索引擎"这

个词的原义也只是指这种狭义上的基于 Robot 的搜索引擎。

基于 Robot 的搜索引擎由三个主要局部构成：Robot、Index 和搜索软件。Robot 从一

个事先制定好的 URLs 列表出发，这个列表中的 URLs 通常是从以往记录中提取出来的，

特别是一些热门站点和"What＇s New"网页，从 Usenet 等地方检索得到的 URLs 也常

被用作起始 URLs，此外，很多搜索引擎还承受用户提交的 URLs，这些 URLs 也会被安排

在列表中供 Robot。Robot 了一个网页后，会对它进展分析，提取出新的 URLs，将之

参加到列表中，如此递归地 Web。

Robot 作为一个程序，可以用 C 、 Perl 、 Java 等语言来编写，可以运行在

Unix、Solaris、Windows、NT、OS2 和 MAC 等平台上。Robot 设计是否合理将直接

影响它 Web 的效率，影响搜索数据库的质量，另外，在设计 Robot 时还必须考虑它对网

络和被站点的影响，因为 Robot 一般都运行在速度快、带宽高的主机上，如果它快速一个

速度比拟慢的目标站点，

就有可能会导致该站点出现阻塞甚至当机。Robot 还应遵守一些协议，以便被站点的管理

员能够确定哪些内容能被，哪些不能。Index 是一个庞大的数据库，Robot 提取的网页将

被放入到 Index 中以便建立索引，不同的搜索引擎会采取不同方式来建立索引，有的对整

个 HTML 文件的所有单词都建立索引，有的只分析 HTML 文件的标题或前几段内容，还

有的能处理 HTML 文件中的 META 标记或其它不可见的特殊标记。基于 Robot 的搜索引

擎一般要定期大多数以前搜集的网页，刷新 Index，以反映出网页的更新情况，去除一些

死，网页的局部内容和变化情况将会反映到用户查询的结果中，这是基于 Robot 的搜索引

擎的一个重要特征。

Index 在建立索引时，一般会给网页中每个关键词赋予一个等级值，表示该网页与关键词

之间的符合程度。当用户查询一个关键词时，搜索软件将搜索 Index，找出所有与关键词

相符合的网页，有时候这些网页可能有成千上万，等级值的用途就是作为一种排序的依据

. .zj.

剩余17页未读，继续阅读

评论收藏

内容反馈

版权申诉

pyhm63

粉丝: 6
资源: 20万+

网络搜索引擎技术的研究报告.doc

搜索引擎技术分析.doc

毕业论文搜索引擎的研究与实现.doc

网络搜索引擎技术-综述

当今搜索引擎技术及发展趋势.doc

网络搜索引擎.doc.rar

数据库和学术搜索引擎的比较研究报告.doc

基于JAVA技术的搜索引擎的研究报告及实现收藏.doc

后浪互联网资料之_基于搜索引擎的网络知识社区模式研究报告文库.doc

网络营销中搜索引擎营销的研究报告及分析——以一淘为例.doc

人工智能-搜索引擎-搜索引擎技术的研究与实现.pdf

搜索引擎的排序技术研究

搜索引擎爬虫技术的研究

北京大学网络实验室搜索引擎技术

人工智能-搜索引擎-搜索引擎中索引技术研究与实现.pdf

研究报告生常用的18大学术搜索引擎.doc

研究网络调研的报告.doc

云计算的调研报告.doc

门户网站调研报告.doc

专题资料（2021-2022年）iresearch艾瑞每月网络广告报告it16807.doc

搜索引擎技术分析 网络爬虫

搜索引擎-基于语义技术的搜索引擎模式研究.pdf

人工智能-搜索引擎-搜索引擎分类展示技术研究.pdf

垂直搜索引擎的抓取技术研究

搜索引擎中网络爬虫的研究

大数据在旅游业中的应用分析报告.doc

大数据的国内外研究现状与发展动态分析报告.doc

沈阳理工大学基于java语言的网络爬虫毕业设计报告共43页.doc

当当网营销案例分析.doc

基于android的即时通讯开题报告(2.0).doc

最新资源

搜索引擎技术分析网络爬虫