没有合适的资源?快使用搜索试试~ 我知道了~
搜索引擎-网站结构对搜索引擎抓取的影响.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 34 浏览量
2022-06-27
07:08:29
上传
评论
收藏 7.62MB PDF 举报
温馨提示
试读
43页
搜索引擎-网站结构对搜索引擎抓取的影响.pdf
资源推荐
资源详情
资源评论
图清单
图清单
图3.1
图3.2
图3.3
图3.4
图3.5
图3.6
图3.7
图3.8
图3.9
图3.10
广度结构…………………………………………………………………………..19
深度结构…………………………………………………………………………一20
实验网站模式…………………………………………………………………………20
网站主页示例……………………………………………………………………..22
“自助餐”型网站的二级索引页示例…………………………………………一23
内容页面示例……………………………………………………………………一24
“面包屑”型网站的二级索引页示例…………………………………………..24
日志分析示例一…………………………………………………………………。27
日志分析示例二……………………………………………………………………28
日志分析示例三…………………………………………………………………….29
N
表清单
表清单
表3.1
网络爬虫来访次数统计表………………………………………………………..30
表3.2网络爬虫访问状态统计表一………………………………………………………30
表3.3
网络爬虫访问状态统计表二……………………………………………………。31
表3.4网络爬虫访问状态统计表三………………………………………………………31
表3.5网络爬虫访问状态统计表四………………………………………………………3l
表3.6收录网页量统计表………………………………………………………………..3
1
VI
引言
1
引言
1.1选题缘起及意义
互联网发展初期,网站数量少,网络信息资源不多,人们在互联网上查找
信息并不困难。但随着网络的迅猛发展,互联网集聚了海量的信息,网站的数
量已经数以亿计,网络信息资源呈爆炸性态势增长,大大增加了人们寻找目标
信息的难度,而搜索引擎的出现和飞速发展则给人们查找获取所需信息带来极
大的便利。
据中国互联网络信息中心(CNNIC)统计【l】,截至2010年12月底,我国
互联网用户数量已达4.57亿,而搜索引擎用户数量为3.75亿,年增长率达
33.1%,搜索引擎用户数量占互联网用户数量比例达81.9%,相比2009年实现
了微幅增长,搜索引擎已成为中国网民的第一大应用,是网民上网获取信息的
最重要的入口和平台。根据iResearch艾瑞咨询公司(http://www.iresearch.cn)
发布的2010年中国搜索引擎年度数据报告显示,在未来的几年,我国搜索引
擎的用户覆盖率(指我国搜索引擎用户数量占我国互联网用户数量的比例)将
继续保持微幅增长的态势。艾瑞咨询分析认为【2】,随着互联网和搜索引擎服务
的进一步发展和渗透,搜索引擎在互联网用户中的覆盖率将保持稳中有升的态
势。根据艾瑞咨询推出的网民连续用户行为研究系统iUserTrackel"的最新图表
数据分析可以得出【3】,2010年中国网页搜索请求量规模为2388.1亿次,年同
比增长17.42%。由此可见,随着网络的发展,搜索引擎已成为人们不可或缺
的网络信息获取平台,在人们的生活中占据着越来越重要的地位。
搜索引擎主要由搜索器(俗称网络爬虫、网络蜘蛛)、索引器、检索器和
用户接口四大部分组成。其中网络爬虫是搜索引擎的核心组成部分,它是一个
自动提取网页的系统程序。网络爬虫通过网页的链接地址寻找网页,从网站的
某一个页面开始,读取网页内容,找到在网页中的其他链接地址,然后通过这
些链接地址寻找下一个网页,这样一直循环下去。在互联网中,网页之间的链
接关系是毫无规律的,它们的关系极其复杂。世界上没有哪一种搜索引擎能够
真正抓取到互联网上所有的网页。为提高网络爬虫抓取网页的速度及其收录网
页的质量,搜索引擎会制定一定的爬行规则和抓取策略。那么什么样的站点页
引言
面更容易被搜索引擎网络爬虫收录,网络爬虫会采取何种策略来访问新的不知
名的站点,这些都需要进行实验性的研究探讨。
传统观点认为网站的物理目录层次越深,其页面就越不容易被搜索引擎网
络爬虫抓取到,一些大型门户网站的目录层次一般也不超过3层。这种说法是
否真实,也有待验证。本文实验就是设计并发布四个目录结构相同但链接结构
不同的网站,观察不同搜索引擎的网络爬虫对不同链接结构的网站实施的页面
抓取访问记录,分析各搜索引擎对新站点采取的爬行规则,进而对网站建设和
推广提供指导性建议,对搜索引擎的改良工作提供参考性意见。
2009年9月21日,中国互联网络信息中心(CNNIC)于北京发布{2009
年中国搜索引擎用户行为研究报告》【4】,报告中指出在我国网络用户中各搜索
品牌的渗透率排名依次为:百度(92.9%)>谷歌(32.7%)>搜狗(26.9%)
>雅虎(22.O%)>搜搜(13.O%)>必应(6.3%)>有道(5.1%),而各搜索
品牌首选份额排名依次为:百度(77.2%)>谷歌(12.7%)>搜搜(3.1%)
>搜狗(2.4%)。根据艾瑞咨询发布的“2010年中国搜索引擎市场营收份额"
图【5】可以看到,在2010年间我国搜索引擎市场集中程度较高,其中百度市场
份额达到71.6%,谷歌市场份额达到26.0%,搜狗市场份额占到1.1%,搜搜市
场份额则占0.8%,其他搜索引擎市场份额共占0.5%。基于以上数据,综合考
虑我国互联网用户的使用习惯及搜索引擎的稳定性等因素,本文选择百度、谷
歌、搜搜、有道以及搜狗这五大中文搜索引擎作为测试对象,观察分析这五大
搜索引擎对不同结构的网站页面的访问记录和抓取规律,来验证不同网站结构
对搜索引擎抓取的影响,说明何种站点更容易被搜索引擎爬行完全,阐述各大
搜索引擎采取何种策略来收录新的不知名的网站,以期能够进一步对我国网站
的建设和推广提供指导,同时对搜索引擎的改良工作提出参考性意见。
1.2同类研究综述
本课题国内外相关研究比较丰富,切题研究极少。国内外先前进行的研究
都只是着重于搜索引擎改进和搜索引擎优化、搜索引擎营销、网站优化,以及
Web日志统计分析系统的实现等些方面,而专门针对特定网站结构对搜索引擎
抓取的影响这方面的研究极其稀少。
2
引言
1.2.1国外研究综述
通过对相关数据库普查和对因特网检索的结果进行分析统计,国外对本课
题研究的相关理论与实践轨迹如下。
随着信息社会和因特网技术的发展,人们对信息的需求不断变化,搜索引
擎也在不断地更新、发展、换代。
国外搜索引擎发展较早。1990年,一位叫Alan
Emtage的学生设计了第一
个真正的搜索工具Archiet61,它是所有搜索引擎的鼻祖,主要用来帮助查询下载
FTP站点上的文件。
1994年4月,美国斯坦福大学的两名博士生David
Filo和JerryYang(杨致
远)共同创办了分类目录索引Yahoo!【_71,直至后来发展成为全球第一大门户资
讯网站。雅虎的出现使搜索引擎的概念得到人们的广泛理解和认可,从此搜索
引擎开始走向高速发展时期。
1994年7月,首次采用了网络蜘蛛(Spider)程序的Lycos诞生,其实这才
是最早的现代意义上的搜索引擎【耵。同年年底,Infoseek正式亮相【91。
1995年出现了元搜索引擎,能够将用户的检索请求分析转换后同时在多个
搜索引擎中进行检索,然后将各搜索引擎的查询结果进行集中排序去重后再返
回给用户。
1995年12月,第一个支持自然语言的AltaVista面世,它实现了高级搜索
语法f101。
1998年,斯坦福大学的2名学生创立了Google公司,而在此之前Google
只是斯坦福大学的一个小项卧11】。Google开发了突破性的PageRank技术,能够
对网页的重要性进行客观的评价测定,使得搜索结果的相关性大大增强。如今
Google已发展成为全球最大的搜索引擎,也成为全球最知名的品牌之一【12】。
2006年初,为了与Google全面抗衡,Yahoo提出了“社会搜索"计划,并
为实施这一计划进行了多起收购,意图通过创建在线社区而改变人们的搜索方
式和习惯㈣。
最近几年,由于信息技术的飞速发展以及网络用户信息需求多样化、个性
化的发展变化,搜索引擎领域也出现针对不同用户信息需求的智能检索、个性
化检索、垂直搜索、主题搜索等。这使得人们在查找所需信息时更加方便快捷。
搜索引擎优化(SEO,Search
Engine
Optimization),是根据搜索引擎对网页
的抓取、索引及排序规则来对网站进行优化改进,提高网站的搜索引擎排名。
3
剩余42页未读,继续阅读
资源评论
programxh
- 粉丝: 17
- 资源: 1万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功