没有合适的资源?快使用搜索试试~ 我知道了~
2.1_爬虫的分类与作用2
资源详情
资源评论
资源推荐
2.1.1 爬虫的定义:
网络爬虫(Web Crawler)又被称为 Ants, Automatic Indexer, Spiders, Robots
或者 Wanderers,就是抓取特定网站网页的 HTML 数据。网络爬虫从一个存放 URL
的集合开始进行爬取,利用 HTTP 协议连续地从不同的服务器中获取 Web 页面,
首先从队列中获取一个 URL 并下载此网页,提取该网页中的其它 URL 并放入队
列中。此过程将重复直至关闭的计算机程序。现在很多网站,尤其是搜索引擎都
将网络爬虫作为一种获取、提供互联网最新数据的手段川。
2.1.2 爬虫的作用与分类:
爬虫能用来干什么.如今每天互联网上的流量足足有 10 亿 GB 左右,不可能
毫无选择的全部爬取下来,这是要根据我们自己的需求来有选择的爬取相对应的
数据.那爬虫可以用来干什么呢?我们根据实际需要将爬虫的目标分为三类.
第一类是通过搜索引擎的网络爬虫来充实搜索引擎的索引列表.这部分需求所需
要的数据是各种网页的地址,标题,主题字等等.这方面比较知名的有 google 爬
虫,baidu 爬虫,Yahoo 爬虫等等。可以大致分为 批量型爬虫(Batch Crawler),
增量型爬虫(Incremental Crawler),垂直型爬虫(Focused Crawter).
第二类建立自己的数据仓库,然后用各种机器学习模型来得出一些寻常无法得出
的预测和分析.我们可以通过这些数据集来进行预测.比如说股票,比特币和各种
风险交易。
只不过要达到这种水平,那么需要爬取到特别优质的数据集.而比特币市场比
起股票来说是一个很简单的市场,但是这也能证明爬虫在该方面的运用.
注:该 MIT 论文的链接是 https://arxiv.org/pdf/1410.1231v1.pdf
第三类为各种论文以及文章提供有力的数据支撑。
我们一般在报告中看到的有关于各行各业的数据分析图,那都是通过抓取特定
行业的专业数据,然后用各种数据分析也好,自己使用第三方可视化 JavaScript
lirumei
- 粉丝: 68
- 资源: 301
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0