下载 >  开发技术 >  Java > 最简单的爬虫-WebMagic 0.73 源码

最简单的爬虫-WebMagic 0.73 源码

2017-12-04 上传大小:348KB
最简单的爬虫设置,最好二次开发的爬虫 WebMagic
框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。作为爬虫框架,它使用httpclient作为获取网页工具、使用Jsoup作为分析页面定位抓取内容、使用ExecutorService线程池作为定时增量抓取、Jdiy作为持久层框架。不熟悉这些名词的同学们可以先行百度一下这些都是什么,起了什么作用,以便更好的理解爬虫的原理。
爬虫主要思想分这么几步:
1. 根据种子链接,抽取目标链接放入待爬取队列
2. 从页面中解析并抽取需要的信息,webmagic在这里会用Jsoup组件来解析html页面。
3. 处理数据。将已提取出来的数据以文件格式存放或者存入数据库以及搜索引擎索引库等。
综合评分:0
开通VIP 立即下载

评论共有0条

 
WebMagic(Java)简单爬虫实现,实现抓取数据,并导出到excel文件 立即下载
积分/C币:3
爬虫webmagic中文资料 立即下载
积分/C币:10
豆瓣电影及电视剧影视剧信息爬取 立即下载
积分/C币:3
webmagic中文教程(在线教程word版) 立即下载
积分/C币:5
webMagic爬虫抓取某个博客全部文章名称 立即下载
积分/C币:3
超级简单快捷爬虫代码python 立即下载
积分/C币:3
webmagic爬虫 立即下载
积分/C币:5
CSDN爬虫(二)——博客列表分页爬虫+数据库设计 立即下载
积分/C币:5
基于webmagic济大教务爬虫 立即下载
积分/C币:3
新浪新闻爬虫 立即下载
积分/C币:5

VIP会员动态

0 1 2

热点文章

关闭
img

spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
点击完成任务获取下载码
输入下载码
为了良好体验,不建议使用迅雷下载
img

最简单的爬虫-WebMagic 0.73 源码

会员到期时间: 剩余下载个数: 剩余C币: 剩余积分:0
为了良好体验,不建议使用迅雷下载
VIP下载
您今日下载次数已达上限(为了良好下载体验及使用,每位用户24小时之内最多可下载20个资源)

积分不足!

资源所需积分/C币 当前拥有积分
您可以选择
开通VIP
4000万
程序员的必选
600万
绿色安全资源
现在开通
立省522元
或者
购买C币兑换积分 C币抽奖
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
为了良好体验,不建议使用迅雷下载
确认下载
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 0 0
为了良好体验,不建议使用迅雷下载
开通VIP
img

资源所需积分/C币 当前拥有积分 当前拥有C币
5 4 45
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
确认下载
下载
无法举报自己的资源

兑换成功

你当前的下载分为234开始下载资源
你还不是VIP会员
开通VIP会员权限,免积分下载
立即开通

你下载资源过于频繁,请输入验证码

您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:webmaster@csdn.net!

举报

若举报审核通过,可返还被扣除的积分

  • 举报人:
  • 被举报人:
  • 举报的资源分:
  • *类型:
  • *详细原因: