没有合适的资源?快使用搜索试试~ 我知道了~
springBoot+webMagic实现网站爬虫的实例代码
16 下载量 158 浏览量
2020-08-19
05:15:50
上传
评论 1
收藏 82KB PDF 举报
温馨提示
试读
7页
主要介绍了springBoot+webMagic实现网站爬虫的实例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
资源推荐
资源详情
资源评论
springBoot+webMagic实现网站爬虫的实例代码实现网站爬虫的实例代码
主要介绍了springBoot+webMagic实现网站爬虫的实例代码,文中通过示例代码介绍的非常详细,对大家的学习
或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
前端时间公司项目需要抓取各类数据,py玩的不6,只好研究Java爬虫方案,做一个总结。
开发环境:开发环境:
springBoot 2.2.6、jdk1.8。
1、导入依赖、导入依赖
<!--WebMagic核心包-->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.7.3</version>
<!--这里可以去掉WebMagic自带的日志(因为打印的很多。。。。)-->
<!-- <exclusions>-->
<!-- <exclusion>-->
<!-- <groupId>org.slf4j</groupId>-->
<!-- <artifactId>slf4j-log4j12</artifactId>-->
<!-- </exclusion>-->
<!-- </exclusions>-->
</dependency>
<!--WebMagic扩展-->
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.7.3</version>
</dependency>
<!--WebMagic对布隆过滤器的支持-->
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>16.0</version>
</dependency>
话不多说,直接上代码。
基础案例基础案例
下面代码说明以一个类似列表的页面为例
package com.crawler.project.proTask;
import com.alibaba.fastjson.JSONObject;
import org.springframework.scheduling.annotation.Scheduled;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.scheduler.BloomFilterDuplicateRemover;
import us.codecraft.webmagic.scheduler.QueueScheduler;
import us.codecraft.webmagic.selector.Selectable;
import java.util.List;
public class TaskProcessor implements PageProcessor {
/*
* 此方法为爬虫业务实现
* */
@Override
public void process(Page page) {
//1、爬虫任务获取到一个page 解析page上的列表
List<Selectable> list = page.getHtml().css("css selector").nodes();
if (list.size() > 0){//说明为列表页面、需要解析列表中每个元素的链接,存入待获取page队列中
for (Selectable selectable : list) {
//遍历集合,将每个元素链接存入待获取page队列中
page.addTargetRequest(selectable.links().toString());
}
//同时将下一页的url存入队列中
page.addTargetRequest("下一页的url");
资源评论
weixin_38733245
- 粉丝: 4
- 资源: 894
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- USB无线网卡驱动 USB\VID-1A86&PID-E397&REV-0738
- matlab实现2ASK通信系统仿真进行2ASK调制
- 直扩+BPSK仿真系统(MATLAB程序.zip
- 利用matlab对am,dsb,ssb,ask,fsk,bpsk信号进行正交调制解调仿真
- 工作汇报 年终总结66.pptx
- 基于Bootstrap的树形表格设计源码
- 7.农机电招平台设计与实现-SpringBoot+ Mysql+Java+ B/S 可运行源码(含数据库脚本)+开发文档+lw)
- 安卓Android快递代拿跑腿APP设计可升级Studio源码.7z
- 哈夫曼树与哈夫曼编码介绍.zip
- 车载电池SOC技术与设计2
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功