【免费】2.1_爬虫的分类与作用2资源-CSDN文库

需积分: 0 167 浏览量 2022-08-08 21:07:56 上传评论收藏 91KB DOCX 举报

资源详情

资源评论

资源推荐

2.1.1 爬虫的定义:

网络爬虫(Web Crawler)又被称为 Ants, Automatic Indexer, Spiders, Robots

或者 Wanderers，就是抓取特定网站网页的 HTML 数据。网络爬虫从一个存放 URL

的集合开始进行爬取，利用 HTTP 协议连续地从不同的服务器中获取 Web 页面,

首先从队列中获取一个 URL 并下载此网页，提取该网页中的其它 URL 并放入队

列中。此过程将重复直至关闭的计算机程序。现在很多网站，尤其是搜索引擎都

将网络爬虫作为一种获取、提供互联网最新数据的手段川。

2.1.2 爬虫的作用与分类:

爬虫能用来干什么.如今每天互联网上的流量足足有 10 亿 GB 左右，不可能

毫无选择的全部爬取下来，这是要根据我们自己的需求来有选择的爬取相对应的

数据.那爬虫可以用来干什么呢？我们根据实际需要将爬虫的目标分为三类.

第一类是通过搜索引擎的网络爬虫来充实搜索引擎的索引列表.这部分需求所需

要的数据是各种网页的地址，标题，主题字等等.这方面比较知名的有 google 爬

虫，baidu 爬虫，Yahoo 爬虫等等。可以大致分为批量型爬虫（Batch Crawler），

增量型爬虫（Incremental Crawler），垂直型爬虫(Focused Crawter）.

第二类建立自己的数据仓库，然后用各种机器学习模型来得出一些寻常无法得出

的预测和分析.我们可以通过这些数据集来进行预测.比如说股票，比特币和各种

风险交易。

只不过要达到这种水平，那么需要爬取到特别优质的数据集.而比特币市场比

起股票来说是一个很简单的市场，但是这也能证明爬虫在该方面的运用.

注：该 MIT 论文的链接是 https://arxiv.org/pdf/1410.1231v1.pdf

第三类为各种论文以及文章提供有力的数据支撑。

我们一般在报告中看到的有关于各行各业的数据分析图，那都是通过抓取特定

行业的专业数据，然后用各种数据分析也好，自己使用第三方可视化 JavaScript

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余1页未读，立即下载

评论0

内容反馈

lirumei

粉丝: 68
资源: 301

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip