# 风铃虫
#### 介绍
风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。
**【声明】
请勿将风铃虫应用到任何可能会违反法律规定和道德约束的工作中,请友善使用风铃虫,遵守蜘蛛协议,不要将风铃虫用于任何非法用途。如您选择使用风铃虫即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。**
<br/>
**快速使用**
```
<dependency>
<groupId>com.yishuifengxiao.common</groupId>
<artifactId>crawler</artifactId>
<version>2.2.0</version>
</dependency>
```
交流 QQ 群 :<a target="_blank" href="//shang.qq.com/wpa/qunwpa?idkey=a81681f687ced1bf514d6226d00463798cefc0a9559fc7d34f1e17e719ca8573"><img border="0" src="//pub.idqqimg.com/wpa/images/group.png" alt="易水组件交流群" title="易水组件交流群"></a> (群号 624646260)
**简单使用**
提取雅虎财经的内容页的电子货币的名字
```
// 创建一个提取属性规则
// 该提取规则标识XPATH表示使用XPATH提取器进行提取,
// 该XPATH提取器的XPATH表达式为 //h1/text() , 该提取提取器的作用顺序是0
ExtractFieldRule extractFieldRule = new ExtractFieldRule(Rule.XPATH, "//h1/text()", "", 0);
// 创建一个提取项
ExtractRule extractRule = new ExtractRule();
extractRule
// 提取项代码,不能为空,同一组提取规则之内每一个提取项的编码必须唯一
.setCode("code")
// 提取项名字,可以不设置
.setName("加密电子货币名字")
// 设置提取属性规则
.setRules(Arrays.asList(extractFieldRule));
// 创建一个风铃虫实例
Crawler crawler = CrawlerBuilder.create()
// 风铃虫的起始链接
.startUrl("https://hk.finance.yahoo.com/cryptocurrencies")
// 风铃虫会将请求到的网页中的URL先全部提取出来
// 然后将匹配链接提取规则的链接过滤出来,放入请求池中
// 请求池中的链接会作为下次抓取请求的种子链接
// 可以以添加多个链接提取规则,多个规则之间是并列(或连接)的关系
// 如果不设置则表示提取链接中所有包含域名关键字(例如此例中的yahoo)的链接放入链接池
// 此例中表示符合该正则表达式的链接都会被提取出来
.addLinkRule(new MatcherRule(Pattern.REGEX, "https://hk.finance.yahoo.com/quote/.+"))
// 内容页地址规则是告诉风铃虫哪些页面是内容页
// 对于复杂情况下,可以与 内容匹配规则 配合使用
// 只有符合内容页规则的页面才会被提取数据
// 对于非内容页,风铃虫不会尝试从中提取数据
// 此例中表示符合该正则表达式的网页都是内容页,风铃虫会从这些页面里提取数据
.contentPageRule(new MatcherRule(Pattern.REGEX, "https://hk.finance.yahoo.com/quote/.+"))
// 风铃虫可以设置多个提取项,这里为了演示只设置了一个提取项
// 增加一个提取项规则
.addExtractRule(extractRule)
// 请求间隔时间
// 如果不设置则使用默认时间10秒,此值是为了防止抓取频率太高被服务器封杀
.interval(3000)// 每次进行爬取时的平均间隔时间,单位为毫秒,
.creatCrawler();
// 启动爬虫实例
crawler.start();
// 这里没有设置信息输出器,表示使用默认的信息输出器
// 默认的信息输出器使用的logback日志输出方法,因此需要看控制台信息
// 由于风铃虫是异步运行的,所以演示时这里加入循环
while (Statu.STOP != crawler.getStatu()) {
try {
Thread.sleep(1000 * 20);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
```
上述例子的作用提取雅虎财经的内容页的电子货币的名字,如果用户想要提取其他信息,只需要按照规则配置好其他的提取规则即可。
> **注意** 上述示例仅供学习演示所用,风铃虫使用者在抓取网页内容请严格遵守相关的法律规定和目标网站的蜘蛛协议
<br/>
**风铃虫原理**
![风铃虫原理](https://images.gitee.com/uploads/images/2019/1208/213313_eb03a944_400404.png "原理图.png")
风铃虫的原理极为简单,主要由 **资源调度器**、**网页下载器**、**链接解析器**、**内容解析器**、**信息输出器** 这极大部分组成。
他们的作用与功能如下所示:
- 资源调度器:负责风铃虫资源的调度过程,例如进行任务的储存、任务的调度和任务的管理
- 网页下载器:负责根据调度器调度的任务下载网页资源
- 链接解析器:负责解析网页下载器下载的网页内容,从网页内容中提取出所有符合要求的链接
- 内容解析器:负责对网页下载器下载的网页内容进行内容解析
- 信息输出器:输出内容解析器解析出来的数据
其中的链接解析器是由一系列的链接提取器组合而成,目前链接提取器主要是支持正则提取。
内容解析器由一系列的内容提取器组合而成,不同的内容提取器功能不同,适用于不同的解析场景,支持多个提取器的重复、循环等多种组合形式。
上述个组件均提供了自定义配置接口,使用户可以根据实际需要进行自定义配置,满足各种复杂乃至异常场景的要求。
**风铃虫内置的内容提取器有**:
1. 原文提取器
2. 中文提取器
3. 常量提取器
4. CSS内容提取器
5. CSS文本提取器
6. 邮箱提取器
7. 数字提取器
8. 正则提取器
9. 字符删除提取器
10. 字符替换提取器
11. 字符串截取提取器
12. XPATH提取器
13. 数组截取
14. ...
在进行文本内容提取时,用户可以将这些提取器自由组合以提取出自己需要的内容,更多提取器的具体用法请参见 [内容提取器用法](https://gitee.com/zhiyubujian/wind-bell/wikis/%E6%88%AA%E5%8F%96%E6%8F%90%E5%8F%96%E5%99%A8?sort_id=1783680)。
**风铃虫内置的浏览器标识有**:
1. 谷歌浏览器(windows版、linux版)
2. Opera浏览器 (windows版、MAC版)
3. 火狐浏览器(windows版、linux版、MAC版)
4. IE浏览器(IE9、IE11)
5. EDAG浏览器
6. safari浏览器(windows版、MAC版)
8. ...
**抓取js渲染网站**
核心代码如下:
```
Crawler crawler = ...
crawler .setDownloader(new SeleniumDownloader("C:\\Users\\yishui\\Desktop\\geckodriver\\win32.exe",3000L))
```
**分布式支持**
核心代码如下:
```
....
//省略其他代码
....
//创建redis资源调度器
Scheduler scheduler=new RedisScheduler("唯一的名字",redisTemplate)
//创建一个redis资源缓存器
RequestCache requestCache = new RedisRequestCache(redisTemplate);
crawler
.setRequestCache(requestCache) //设置使用redis资源缓存器
.setScheduler(scheduler); //设置使用redis资源调度器
....
//省略其他代码
....
//启动爬虫实例
crawler.st
没有合适的资源?快使用搜索试试~ 我知道了~
wind-bell风铃虫轻量级爬虫工具 v2.2.1
共117个文件
java:111个
url:1个
license:1个
2 下载量 122 浏览量
2020-11-03
05:11:11
上传
评论
收藏 144KB ZIP 举报
温馨提示
为您提供wind-bell风铃虫轻量级爬虫工具下载,wind-bell风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提
资源推荐
资源详情
资源评论
收起资源包目录
wind-bell风铃虫轻量级爬虫工具 v2.2.1 (117个子文件)
下载说明.htm 3KB
CrawlerBuilder.java 31KB
CssExtractTest.java 25KB
Crawler.java 16KB
CrawlerProcessor.java 9KB
SiteRule.java 8KB
SimpleSimulator.java 7KB
Request.java 6KB
CrawlerWorker.java 6KB
ContentExtractDecorator.java 6KB
SimpleDownloader.java 5KB
BaseDownloader.java 5KB
LinkExtractDecorator.java 5KB
UserAgentConstant.java 4KB
Page.java 4KB
SiteConstant.java 4KB
CrawlerData.java 4KB
LinkUtils.java 4KB
DemoTest.java 3KB
SchedulerDecorator.java 3KB
SeleniumDownloader.java 3KB
StrategyFactory.java 3KB
CrawlerRule.java 3KB
RegexFactory.java 3KB
RedisRequestCache.java 2KB
SimpleContentMatcher.java 2KB
CssStrategy.java 2KB
PageRule.java 2KB
Simulator.java 2KB
ExtractRule.java 2KB
RuleConstant.java 2KB
ScriptStrategy.java 2KB
InMemoryRequestCache.java 2KB
CssTextStrategy.java 2KB
RequestCache.java 2KB
CrawlerListener.java 2KB
XpathStrategy.java 2KB
AbstractContentExtractor.java 2KB
SimpleRequestCreater.java 2KB
Task.java 2KB
RelativeLinkFilter.java 2KB
RedisScheduler.java 2KB
RegexStrategy.java 2KB
SimpleLinkExtractor.java 2KB
ExtractFieldRule.java 1KB
ArrayStrategy.java 1KB
SimpleContentExtract.java 1KB
MatcherFactory.java 1KB
ContentRule.java 1KB
HostDuplicateRemover.java 1KB
DuplicateRemover.java 1KB
SubstrStrategy.java 1KB
HeaderRule.java 1KB
LinkRule.java 1KB
MatcherRule.java 1KB
SimpleContentExtractor.java 1KB
BaseLinkFilter.java 1KB
IllegalLinkFilter.java 1KB
ContentExtract.java 1KB
ExtractorFactory.java 1KB
Scheduler.java 1KB
AbsoluteLinkFilter.java 1KB
ShortLinkFilter.java 994B
DescpContentExtractor.java 954B
KeywordContentExtractor.java 951B
CharsetContentExtractor.java 949B
ExcludePathMatcher.java 945B
KeywordPathMatcher.java 944B
SimpleDuplicateRemover.java 933B
TitleContentExtractor.java 921B
RemoveStrategy.java 918B
SimpleCrawlerListener.java 918B
SystemStrategy.java 914B
SimulatorData.java 911B
HashLinkFilter.java 895B
ReplaceStrategy.java 880B
XpathTest.java 866B
RegexPathMatcher.java 822B
SimpleScheduler.java 817B
Rule.java 811B
EmailStrategy.java 786B
DomainStrategy.java 784B
UrlStrategy.java 783B
ConstantStrategy.java 763B
AllStrategy.java 758B
AbstractExtractorFactory.java 750B
ChnStrategy.java 745B
ContentMatcher.java 727B
NumStrategy.java 727B
CrawlerConstant.java 725B
Downloader.java 720B
SimpleThreadFactory.java 693B
LocalCrawler.java 691B
LinkExtract.java 681B
HttpLinkFilter.java 670B
Strategy.java 668B
RegexTest.java 656B
NestConstant.java 655B
SimplePipeline.java 650B
RequestCreater.java 642B
共 117 条
- 1
- 2
资源评论
weixin_38517212
- 粉丝: 8
- 资源: 951
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- springboot项目考研互助交流平台springbootlod和php.zip
- T_EERT 024-2022 恶臭处理装置运行维护规范.pdf
- TCMATB 1001-2019 中国黑猪肉.pdf
- 数据分析-70-关于近年我国结离婚数据的可视化分析(包含代码和数据)
- springboot项目粮仓管理系统的设计与实现boot.zip
- springboot项目客户管理系统.zip
- springboot项目辽B代驾管理系统.zip
- springboot项目美发管理系统.zip
- springboot项目美术馆管理系统.zip
- springboot项目旅游管理系统.zip
- springboot项目面向智慧教育的实习实践系统设计与实现.zip
- springboot项目民航网上订票系统设计和实现.zip
- springboot项目人事管理系统论文.zip
- 自动驾驶多传感器联合标定系列之毫米波雷达到车体坐标系的标定工程 , 本对毫米波雷达的偏航角yaw进行标定,分为粗略标定、静态目标识别和曲线拟合三个步骤 这个工程带有代码注释,帮助您对标定算法的的理
- springboot项目日常办公用品直售推荐系统的设计与实现_i.zip
- springboot项目陕西理工大学奖学金评定管理系统的开发boot.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功