package ink.ulricj.scheduler;
import ink.ulricj.entity.Url;
import org.springframework.stereotype.Component;
import redis.clients.jedis.Jedis;
import redis.clients.jedis.Tuple;
import java.net.URL;
import java.util.*;
/**
* URL 管理器,使用 Redis 实现
* <p>
* 待访问队列使用 zset(priority属性值充当其中的'分数'作排序依据),已访问队列使用 set(无序)
* <p>
* created by Ulric on 2018/3/6
*/
@Component
public class CommonScheduler implements Scheduler {
/*** ===redis数据库的相关信息=== ***/
private static final String HOST = "localhost"; // 主机
private static final int PORT = 6379; // 端口
private static final int TIMEOUT = 2000; // 超时时间:2秒
// @Resource
// @Autowired
// private StringRedisTemplate stringRedisTemplate;
// zset 操作对象
// @Resource
// private ZSetOperations zSetOperations = stringRedisTemplate.opsForZSet();
// set 操作对象
// @Resource
// private SetOperations setOperations = stringRedisTemplate.opsForSet();
private final String VISITED_SET_KEY = "visited_set"; // 已访问 URL 集合的键
private final String NON_VISIT_ZSET_KEY = "non_visit_zset"; // 待访问 URL 集合的键
private Double currPriority; // 当前访问页面的优先级,当属于该优先级的页面全部访问完才自增
/**
* 设置初始 url,并初始化 currPriority 为初始 url 的 priority 值
*
* @author Ulric
* @date 2018/3/15
*/
@Override
public void setOriginUrl(List<Url> urlList) {
setCurrPriority(urlList.get(0).getPriority());
addNonVisitUrl(urlList);
}
/**
* 从 *未* 访问队列中获取下一个 url
*
* @author Ulric
* @date 2018/3/7
*/
@Override
public Url getNextNonVisitUrl() {
/*** ===SpringDataRedis 版本=== ***/
// ZSetOperations<String, String> zSetOperations = stringRedisTemplate.opsForZSet();
// ZSetOperations zSetOperations = stringRedisTemplate.opsForZSet();
// 取分数等于 当前优先级 的元素
// Set<ZSetOperations.TypedTuple<String>> set = zSetOperations.rangeByScoreWithScores(NON_VISIT_ZSET_KEY,
// currPriority, currPriority);
/*** ===jedis 版本=== ***/
// Jedis jedis = JedisUtil.getJedis();
Jedis jedis = new Jedis(HOST, PORT, TIMEOUT);
Set<Tuple> set = jedis.zrangeByScoreWithScores(NON_VISIT_ZSET_KEY, currPriority, currPriority);
// System.out.println("============获取到redis中优先级为" + currPriority + "的页面有" + set.size() + "个");
if (set == null || set.size() == 0) {
System.out.println("不存在分数为" + currPriority + "的元素");
increaseCurrentPriority();
return null;
}
// 获取到的是最后一个属于当前优先级的页面url
if (set.size() <= 1) {
System.out.println("最后一个优先级为" + currPriority + "的页面");
increaseCurrentPriority(); // 当前优先级加1
}
// 将url集合set转为list,然后获取第1个url
Iterator setIterator = set.iterator();
List<Url> urlList = new ArrayList<>();
while (setIterator.hasNext()) {
/*** ===SpringDataRedis 版本=== ***/
// ZSetOperations.TypedTuple<String> typedTuple = (ZSetOperations.TypedTuple) setIterator.next();
// Url url = new Url(typedTuple.getValue());
// url.setPriority(typedTuple.getScore().intValue());
/*** ===jedis 版本=== ***/
Tuple tuple = (Tuple) setIterator.next();
Url url = new Url(tuple.getElement());
url.setPriority((int) tuple.getScore()); // double --> int
urlList.add(url);
}
// 获取集合的第一个url
Url firstUrl = urlList.get(0);
// 获取到后从 zset 中删除该url
jedis.zrem(NON_VISIT_ZSET_KEY, firstUrl.getUrl()); // 为什么有时候会删除不止一个url
// 将 Jedis 连接对象放回到连接池
// JedisUtil.close(jedis);
// 回收当前线程的 jedis 对象
// JedisUtil.close();
// 关闭 jedis 连接对象
jedis.close();
return firstUrl; // 返回集合的首个url
}
/**
* 添加一个 url 到 *未* 访问队列中
*
* @author Ulric
* @date 2018/3/7
*/
@Override
public void addNonVisitUrl(Url nonVisitUrl) {
/*** ===SpringDataRedis 版本=== ***/
// SetOperations<String, String> setOperations = stringRedisTemplate.opsForSet();
// SetOperations setOperations = stringRedisTemplate.opsForSet();
// 如果这个 url 已经访问过,则跳过
// if (setOperations.isMember(VISITED_SET_KEY, nonVisitUrl.getUrl())) {
// return;
// }
// 否则直接保存到待访问队列ZSet中
// ZSetOperations<String, String> zSetOperations = stringRedisTemplate.opsForZSet();
// ZSetOperations zSetOperations = stringRedisTemplate.opsForZSet();
// zSetOperations.add(NON_VISIT_ZSET_KEY, nonVisitUrl.getUrl(), nonVisitUrl.getPriority());
/*** ===jedis 版本=== ***/
/*** 检查已访问队列中是否已经存在该url ***/
// Jedis jedis = JedisUtil.getJedis();
Jedis jedis = new Jedis(HOST, PORT, TIMEOUT);
// 如果这个 url 已经访问过,则跳过
if (jedis.sismember(VISITED_SET_KEY, nonVisitUrl.getUrl())) {
return;
}
// 否则直接保存到待访问队列ZSet中
jedis.zadd(NON_VISIT_ZSET_KEY, nonVisitUrl.getPriority(), nonVisitUrl.getUrl());
// 将 Jedis 连接对象放回到连接池
// JedisUtil.close(jedis);
// 回收当前线程的 jedis 对象
// JedisUtil.close();
//
jedis.close();
}
/**
* 添加一个 url 集合到 *未* 访问队列中,添加完成后会根据 Url 对象的 priority 属性进行升序排序
*
* @author Ulric
* @date 2018/3/7
*/
@Override
public void addNonVisitUrl(List<Url> nonVisitUrlList) {
// 如果传进来的集合为 null 或没有内容,则直接结束方法
if (nonVisitUrlList == null || nonVisitUrlList.size() <= 0) {
return;
}
for (Url url : nonVisitUrlList) {
addNonVisitUrl(url);
}
}
/**
* 添加一个 url 到 *已* 访问队列中
*
* @param visitedUrl
* @author Ulric
* @date 2018/3/7
*/
@Override
public void addVisitedUrl(Url visitedUrl) {
/*** ===SpringDataRedis 版本=== ***/
// SetOperations<String, String> setOperations = stringRedisTemplate.opsForSet();
// SetOperations setOperations = stringRedisTemplate.opsForSet();
// setOperations.add(VISITED_SET_KEY, visitedUrl.getUrl());
/*** ===jedis 版本=== ***/
// Jedis jedis = JedisUtil.getJedis();
Jedis jedis = new Jedis(HOST, PORT, TIMEOUT);
jedis.sadd(VISITED_SET_KEY, visitedUrl.getUrl());
// 将 Jedis 连接对象放回到连接池
// JedisUtil.close(jedis);
// 回收当前线程的 jedis 对象
// JedisUtil.close();
//
jedis.close();
}
/**
* 判断 *未* 访问队列是否为空,用于判断本次任务是否已经完成,若队列为空则任务完成
*
* @author Ulric
* @date 2018/3/8
*/
@Override
public Boolean isNonVisitZSetEmpty() {
/*** ===SpringDataRedis 版本=== ***/
// ZSetOperations<String, String> zSetOperations = stringRedisTemplate.opsForZSet();
// ZSetOperations zSetOperations = stringRedisTemplate.opsForZSet();
// if (zSetOperations.size(NON_VISIT_ZSET_KEY) <= 0) {
// return true;
// }
/*** ===jedis 版本===
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
毕业设计项目:《基于网页抽取的HTML5标记的统计与分析》,爬取HTML标签并统计分析的系统.zip 1、该资源内项目代码经过严格调试,下载即用确保可以运行! 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程设计、期末大作业和毕设项目的学生、或者相关技术学习者作为学习资料参考使用。 3、该资源包括全部源码,需要具备一定基础才能看懂并调试代码。 毕业设计项目:《基于网页抽取的HTML5标记的统计与分析》,爬取HTML标签并统计分析的系统.zip 1、该资源内项目代码经过严格调试,下载即用确保可以运行! 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等)正在做课程设计、期末大作业和毕设项目的学生、或者相关技术学习者作为学习资料参考使用。 3、该资源包括全部源码,需要具备一定基础才能看懂并调试代码。 毕业设计项目:《基于网页抽取的HTML5标记的统计与分析》,爬取HTML标签并统计分析的系统.zip 1、该资源内项目代码经过严格调试,下载即用确保可以运行! 2、该资源适合计算机相关专业(如计科、人工智能、大数据、数学、电子信息等
资源推荐
资源详情
资源评论
收起资源包目录
毕业设计项目:《基于网页抽取的HTML5标记的统计与分析》,爬取HTML标签并统计分析的系统.zip (277个子文件)
layui.css 58KB
layer.css 14KB
layui.mobile.css 10KB
laydate.css 7KB
code.css 1KB
index.css 246B
iconfont.eot 38KB
index.ftl 4KB
error.ftl 410B
59.gif 10KB
22.gif 10KB
24.gif 8KB
13.gif 7KB
16.gif 7KB
39.gif 6KB
64.gif 6KB
63.gif 6KB
50.gif 6KB
loading-0.gif 6KB
4.gif 6KB
1.gif 5KB
42.gif 5KB
71.gif 5KB
21.gif 5KB
20.gif 5KB
29.gif 5KB
70.gif 4KB
5.gif 4KB
17.gif 4KB
27.gif 4KB
9.gif 4KB
44.gif 4KB
11.gif 4KB
8.gif 4KB
3.gif 4KB
23.gif 4KB
34.gif 4KB
41.gif 4KB
38.gif 4KB
65.gif 3KB
32.gif 3KB
45.gif 3KB
7.gif 3KB
12.gif 3KB
26.gif 3KB
60.gif 3KB
2.gif 3KB
40.gif 3KB
25.gif 3KB
19.gif 3KB
66.gif 3KB
18.gif 3KB
46.gif 3KB
10.gif 3KB
28.gif 3KB
51.gif 3KB
57.gif 3KB
67.gif 3KB
0.gif 3KB
48.gif 3KB
43.gif 3KB
30.gif 2KB
61.gif 2KB
33.gif 2KB
69.gif 2KB
14.gif 2KB
47.gif 2KB
36.gif 2KB
49.gif 2KB
58.gif 2KB
6.gif 2KB
54.gif 2KB
53.gif 2KB
56.gif 2KB
62.gif 2KB
31.gif 2KB
55.gif 2KB
35.gif 2KB
15.gif 2KB
loading-2.gif 2KB
37.gif 1KB
68.gif 1KB
52.gif 777B
loading-1.gif 701B
Webend.iml 10KB
Crawler.iml 10KB
Analysis.iml 9KB
HtmlLabelAnalysisSystem.iml 8KB
CommonScheduler.java 12KB
CommonPageProcessor.java 8KB
CrawlerApplicationTests.java 7KB
TestProcessor.java 7KB
Crawler.java 7KB
AnalysisUtil.java 4KB
UserMapper.java 4KB
LabelAndNumber.java 3KB
JedisUtil.java 3KB
Label.java 3KB
CommonPipeline.java 3KB
UserController.java 3KB
共 277 条
- 1
- 2
- 3
资源评论
辣椒种子
- 粉丝: 4139
- 资源: 5745
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功