没有合适的资源?快使用搜索试试~ 我知道了~
snappydata:极稳定的开源网页数据爬虫,1服务端 + 多客户端
共133个文件
java:105个
xml:12个
png:3个
需积分: 5 0 下载量 151 浏览量
2021-05-26
19:58:24
上传
评论
收藏 764KB ZIP 举报
温馨提示
作者 工具仅供交流学习,不能用于商业用途 版本更新 v2.0 2019/06/22 服务端改造成springboot snappy爬虫能做什么 能稳定,准确,快速,集群爬取规则网页的数据,并存储到mysql中。 如 爬取酷云电影资源 , 爬取安居客新房和二手房数据 其他网站资源 snappy有什么优点 安装方便,编译打包成可执行程序方便 开源,可以一起完成更强大的功能 数据不遗漏,比如安居客二手房,没一秒就有好多数据产生,如果每一页每一条串行爬取,效率低,还可能漏爬。 可用集群分布式多台机器爬取,如果网页数据产生太多,如安居客二手房房源,发现当前爬取慢,只要再找一台服务器启动一个客户端就行了。动态扩展算力。 服务端和客户端都可以自定义爬虫数量 理论支持无上限任务 快速开始 启动server 和 client 克隆本项目到你机器上: git clone 在项目的根路径执行打包命令:m
资源推荐
资源详情
资源评论
收起资源包目录
snappydata:极稳定的开源网页数据爬虫,1服务端 + 多客户端 (133个子文件)
start.bat 64B
start.bat 64B
client.gif 107KB
.gitignore 309B
ContentParser.java 20KB
Snappier.java 20KB
MysqlHadler.java 17KB
ContentParser.java 16KB
SnappierURL.java 15KB
XTokenQueue.java 14KB
XTokenQueue.java 14KB
HttpSender.java 14KB
HttpSender.java 14KB
XPathParser.java 14KB
XPathParser.java 14KB
SimFeatureUtil.java 12KB
SimFeatureUtil.java 12KB
SnappierXmlEntity.java 12KB
SnappierXmlEntity.java 12KB
XiCiProxy.java 9KB
HtmlunitClient.java 8KB
XiCiProxy.java 8KB
HtmlunitClient.java 8KB
Controller.java 8KB
MysqlSender.java 7KB
Snappy.java 7KB
SnappierInitialLoader.java 6KB
ContentParserThread.java 6KB
SnappyServerListener.java 5KB
SnappyServerApplication.java 5KB
ElementOperator.java 4KB
ElementOperator.java 4KB
IpProxyManager.java 4KB
IpProxyManager.java 4KB
UrlResultCheckThread.java 4KB
StructuralEvaluator.java 4KB
StructuralEvaluator.java 4KB
MessageController.java 4KB
Htmlunit.java 3KB
URLQueueManager.java 3KB
ResultSenderThread.java 3KB
Configparser.java 3KB
Htmlunit.java 3KB
HttpRequest.java 3KB
SnappyClientServeletListener.java 3KB
ContentParserManager.java 3KB
CombiningEvaluator.java 2KB
CombiningEvaluator.java 2KB
Configparser.java 2KB
HttpSenderManager.java 2KB
XmlNode.java 2KB
SnappyClient.java 2KB
SnappierManager.java 2KB
JsonResult.java 2KB
XmlFileParser.java 2KB
XmlNode.java 2KB
PathManager.java 2KB
MySqlConnection.java 1KB
ContentParserManager.java 1KB
PrepareEnvironment.java 1KB
PathManager.java 1KB
XmlFileParser.java 1KB
DefaultXElements.java 1KB
DefaultXElements.java 1KB
DefaultXPathEvaluator.java 1KB
DefaultXPathEvaluator.java 1KB
CombiningXElements.java 1KB
CombiningXElements.java 1KB
IPmaintest.java 1KB
ContentMessage.java 1KB
ContentMessage.java 1KB
CombingXPathEvaluator.java 1KB
CombingXPathEvaluator.java 1KB
XEvaluators.java 1KB
XEvaluators.java 1KB
HttpSenderPoolFactory.java 1KB
MessageManager.java 895B
HttpProxyIp.java 886B
DefaultXElement.java 884B
DefaultXElement.java 884B
HttpTest.java 868B
ProxyEntity.java 850B
ProxyEntity.java 850B
HttpSenderThread.java 849B
ContentParserThreadPool.java 842B
ThreadPoolTest.java 810B
MessageManager.java 793B
Message.java 763B
Message.java 763B
HttpSenderThread.java 746B
SnappierThreadPool.java 724B
testproxy.java 716B
ContentParserThreadPool.java 703B
URLMessage.java 576B
URLMessage.java 576B
Xsoup.java 567B
Xsoup.java 567B
BaseVO.java 523B
XElements.java 253B
XElements.java 253B
共 133 条
- 1
- 2
资源评论
陶涵煦
- 粉丝: 32
- 资源: 4654
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于SpringBoot+vue的母婴护理知识共享系统源码(java毕业设计完整源码+LW).zip
- 机械设计行走式堆垛机sw18可编辑全套设计资料100%好用.zip
- VSG(同步机)控制,基于T型三电平的VSG构网型逆变器控制,采用LCL型滤波器,电压电流双闭环控制 1.VSG控制 2.中点电位平衡控制 3.电压电流双闭环控制 4.提供参考文献以及VSG原理和下
- ICU危重症患者床单元护理质量标准.docx
- xx职业技能鉴定所(站)年度审查和综合评审报告书.doc
- 办公家具配置标准表.docx
- 保洁人员院感知识培训试卷.docx
- 编外合同制工作人员审批表、编外合同制工作人员备案表.doc
- 常用HV、HB、HRC硬度对照表.docx
- 城建档案工作情况统计报表.docx
- 参保大学生异地就医直接结算登记备案表.doc
- 城市棚户区改造项目原安置房汇总表.docx
- 第X季度烟草专卖零售许可证办理情况公示表.docx
- 房地产市场库存情况表.docx
- 房地产市场批准销售情况表.docx
- 房地产市场销售情况表.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功