没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
网络爬虫分析及主题式网络爬虫研究
前言:
随着网络时代的到来,数以亿计的网页和无穷数据散落在 internet 的各个角落,
而通过搜索引擎,我们可以非常方便快捷的获取到自己想了解的信息。机器人或全
文检索索引引擎如 Google、百度等搜索功能强大,交互性强,作为索引搜索引擎
的关键部分,抓取页面的网络爬虫技术非常重要,为了解决传统爬虫技术的诸多问
题,变化了很多技术,包括聚焦式或主题式网络爬虫等技术。本文将对网络爬虫技
术进行分类和对其在搜索引擎中的工作原理进行分析,并针对主题式网络爬虫技术
及其趋势进行研究。
1. 网络爬虫的概念和在搜索引擎中的工作及原理
1.1 网络爬虫的概念
网络爬虫(又被称为网页蜘蛛,网络机器人,在 FOAF 社区中被称为网页追逐
者),是一种按照一定的规则,自动的抓取网络上的网页、程序或者脚本,也叫蚂
蚁或蠕虫。网络爬虫抓取页面的过程称为爬行。
1.2 网络爬虫的理解和工作原理
一般索引式搜索引擎的工作原理可以归纳为:通过网络爬虫程序,定期抓取
Web 信息:系统将信息进行解析、筛选、保存。接着根据一定的相关度算法进行大
量计算,得到每个网页针对页面内容中每个关键词的相关性,并建立索引,为用户
提供服务,当用户在前端输入关键词后,查询系统会从索引数据库中按相关性的高
度显示在用户面前。 概括来说,一般搜索引擎是由搜索器、检索器、索引器和用户
资源评论
baidu_26209567
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功