基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目.zip

共119个文件

java：107个

xml：5个

yaml：3个

版权申诉

184 浏览量 2024-03-23 23:25:58 上传评论收藏 92KB ZIP 举报

该项目是一个使用Java语言开发的高性能、可横向扩展且支持分布式部署的HTTP代理池爬虫框架。这个框架的主要目的是为了在大规模网络爬虫操作中提供稳定、高效的代理IP资源，以应对网站反爬策略，提高爬取效率。下面将详细介绍这个项目的关键技术和实现方式。一、Java技术栈该项目的核心开发语言是Java，Java以其跨平台性、稳定性以及丰富的库支持，成为构建大型系统的基础。开发者可能使用了Spring Boot或Quarkus等现代化的Java框架来简化开发流程和提高性能。二、高性能设计 1. 多线程处理：Java的并发库提供了强大的多线程支持，项目可能采用了线程池技术，通过合理调度任务，避免了线程频繁创建和销毁带来的开销。 2. 异步IO：利用Java的NIO（非阻塞IO）或AIO（异步IO），可以提高对大量连接的处理能力，减少系统资源的占用。 3. 缓存机制：项目可能采用了内存缓存（如Guava Cache或 caffeine）来存储常用的代理IP，减少数据库或网络访问，提升响应速度。三、免费HTTP代理池项目包含了一个免费HTTP代理的获取和验证模块。这可能包括以下功能： 1. 代理IP采集：从多个公开源（如论坛、API等）定时抓取新的代理IP。 2. 代理IP验证：通过向已知网站发送请求，检查代理IP的可用性和速度。 3. IP管理：存储和维护有效的代理IP，定期进行有效性检测，确保IP的质量。四、横向扩展 1. 微服务架构：项目可能采用了微服务设计，每个功能模块作为一个独立的服务，可以独立部署和扩展，如代理IP采集服务、验证服务、调度服务等。 2. 负载均衡：使用如Nginx或HAProxy等负载均衡器，将请求分发到不同的服务实例，实现水平扩展，增加系统的处理能力。 3. 容器化部署：借助Docker和Kubernetes等工具，可以方便地添加新的服务实例，快速实现横向扩展。五、分布式爬虫 1. 分布式任务调度：项目可能使用如Apache Kafka或RabbitMQ等消息队列作为任务调度平台，将爬虫任务分发到多个节点执行。 2. 数据一致性：通过分布式协调服务如Zookeeper或Etcd来管理爬虫任务的状态和协调节点间的同步，确保数据的一致性。 3. 存储和分片：使用分布式文件系统如Hadoop HDFS或分布式数据库如HBase，将爬取的数据分散存储，提高读写性能。六、监控与日志为了确保系统的稳定运行，项目可能会集成Prometheus、Grafana等监控工具，对服务性能、系统资源使用情况进行实时监控。同时，使用如Logstash、Elasticsearch、Kibana（ELK栈）等工具，对日志进行收集、分析和展示，便于问题排查和性能优化。总结，这个Java实现的项目为大规模的网络爬虫工作提供了高性能、可扩展的解决方案，通过代理IP池解决了IP限制问题，采用分布式架构保证了系统的稳定性和高吞吐量，是企业级网络爬虫项目的优秀实践。

资源推荐

资源详情

资源评论

收起资源包目录

基于Java的高性能、支持免费http代理池、支持横向扩展、分布式爬虫项目.zip （119个子文件）

.gitignore 94B

SimpleHttpClient.java 6KB

AbstractPageTask.java 5KB

ZhihuProxyPageDownloadTask.java 5KB

ZhihuUserTask.java 5KB

ZhihuConstants.java 5KB

Proxy.java 5KB

TopicActivityPageTask.java 5KB

AbstractHttpClient.java 5KB

ZhihuTopicPageTask.java 4KB

TaskQueueService.java 4KB

ProxyQueue.java 4KB

Temp.java 3KB

ZhihuUserTaskSender.java 3KB

AbstractPageProxyTestTask.java 3KB

Constants.java 3KB

TopicPageTaskSender.java 3KB

ZhihuQuestionMongodbDao.java 3KB

ProxyPageProxyPool.java 3KB

BaseReceiver.java 2KB

ZhihuTopicMongodbDao.java 2KB

ProxyPageDownloadTaskSender.java 2KB

ZhihuPageProxyTestTask.java 2KB

SimpleThreadPoolExecutor.java 2KB

RedisLockTest.java 2KB

ThreadPoolUtil.java 2KB

ZhihuTopicActivityMongodbDao.java 2KB

ZhihuComponent.java 2KB

RedisLockUtil.java 2KB

ZhihuUserMongodbDao.java 2KB

ProxyPageProxyTestReceiver.java 2KB

ZhihuProxyPageProxyTestTask.java 2KB

ProxyPageDownloadTaskReceiver.java 2KB

ZhihuPageProxyTestReceiver.java 2KB

Ip181ProxyListPageParser.java 2KB

LocalIPService.java 2KB

ThreadPoolMonitor.java 2KB

CrawledUrlMongodbDao.java 2KB

ProxyUtil.java 1KB

CrawlerUtils.java 1KB

ZhihuTopicActivityMongoPageParser.java 1KB

ZhihuArticleMongodbDao.java 1KB

ZhihuAnswerMongodbDao.java 1KB

SpringMongoConfig.java 1KB

MultUrlsAbstractPageTask.java 1KB

QydailiProxyListPageParser.java 1KB

ZhihuUser.java 1KB

JedisConfiguration.java 1KB

ZhihuTopicMongoPageParser.java 1KB

Ip66ProxyListPageParser.java 1KB

ZhihuUserPageParser.java 1KB

Ip89ProxyListPageParser.java 1KB

CrawlerMessage.java 1KB

XicidailiProxyListPageParser.java 1KB

CrawledUrl.java 1KB

MimiipProxyListPageParser.java 1KB

ProxyHttpClient.java 1KB

Answer.java 1KB

KuaiProxyListPageParser.java 1KB

Md5Util.java 1KB

Page.java 1KB

CnProxyListPageParser.java 1KB

ProxyListPageParserFactory.java 1004B

BaseMongodbDao.java 960B

ShutdownService.java 925B

TopicPageTaskReceiver.java 893B

XicidailiProxyListPageParserTest.java 883B

ZhihuUserTaskReceiver.java 870B

ZhihuHttpClient.java 860B

QydailiProxyListPageParserTest.java 819B

MimiipProxyListPageParserTest.java 798B

KuaiProxyListPageParserTest.java 795B

CrawledUrlUtil.java 786B

PatternUtil.java 749B

Question.java 741B

Article.java 730B

IhuanProxyListPageParser.java 718B

Target.java 678B

Author.java 673B

Topic.java 660B

ZhihuCrawlerConfiguration.java 654B

PatternUtilTest.java 616B

ZhihuCrawlerApplication.java 504B

TopicActivity.java 472B

ExceptionTest.java 441B

ServletInitalizer.java 441B

CommonProperties.java 435B

AsyncHttpClientUtilTest.java 428B

SimpleSpringJUnit4ClassRunner.java 428B

SystemUtil.java 405B

ListPageParser.java 381B

ZhihuUserRepository.java 360B

RetryHandler.java 356B

ProxyListPageParser.java 332B

CrawledUrlRepository.java 302B

ZhihuQuestionRepository.java 300B

Location.java 300B

ZhihuArticleRepository.java 297B

ZhihuAnswerRepository.java 294B

ZhihuTopicRepository.java 291B

共 119 条

知乎爬虫 ==== zhihu-crawler是一个基于Java的高性能、支持免费http代理池、支持横向扩展、分布式抓取爬虫项目，主要功能是抓取知乎用户、话题、问题、答案、文章等数据，如果觉得不错，请给个star。 ## 爬取结果 * 下图为爬取117w知乎用户数据的简单统计<br> ![](https://github.com/wycm/zhihu-crawler/blob/2.0/src/main/resources/img/zhihu-charts.png) * 详细统计见 https://www.vwycm.cn/zhihu/charts ## 需要 1. jdk 1.8 2. redis 3. mongodb ## 快速开始 1. 修改```zhihu/src/main/resources/application.yaml```redis、mongodb相关配置，[application.yaml](https://github.com/wycm/zhihu-crawler/blob/3.0/zhihu/src/main/resources/application.yaml) 2. 初始化```zhihu/src/main/resources/mongo-init.sql```mongodb脚步，[mongo-init.sql](https://github.com/wycm/zhihu-crawler/blob/3.0/zhihu/src/main/resources/mongo-init.sql) 3. 设置日志路径，默认在`/var/www/logs`[logback-spring.xml](https://github.com/wycm/zhihu-crawler/blob/3.0/zhihu/src/main/resources/logback-spring.xml) 4. Run with [ZhihuCrawlerApplication.java](https://github.com/wycm/zhihu-crawler/blob/3.0/zhihu/src/main/java/com/github/wycm/zhihu/ZhihuCrawlerApplication.java ) ## 使用到的接口 * 地址(url)：```https://www.zhihu.com/api/v4/members/${userid}/followees``` * 请求类型：GET * **请求参数** | 参数名 |类型 | 必填 | 值 | 说明| | :------------ | :------------ | :------------ | :----- | :------------ | | include | String | 是| ```data[*]answer_count,articles_count``` |需要返回的字段（这个值可以改根据需要增加一些字段，见如下示例url） | | offset | int | 是| 0 | 偏移量（通过调整这个值可以获取到一个用户的```所有关注用户```资料） | | limit | int | 是| 20 | 返回用户数（最大20，超过20无效） | * url示例：```https://www.zhihu.com/api/v4/members/wo-yan-chen-mo/followees?include=data[*].educations,employments,answer_count,business,locations,articles_count,follower_count,gender,following_count,question_count,voteup_count,thanked_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=0&limit=20``` * 响应：json数据，会有关注用户资料 ## 特性 * 大量使用http代理，突破同一个客户端访问量限制（注：使用的都是网上公开的免费代理，近期测试来看，部分免费代理网站都做了反爬，可用的免费代理比以前少了很多，抓取速度相比以前慢了很多）。 * 支持持久化(mongodb)。 * 多线程、高性能、支持横向扩展分布式爬取。 ## TODO * 新增问题、答案、文章抓取 * 支持实时抓取，每小时更新知乎全站所有热门内容 ## 更新 ### 2019.02.21 * 基于Spring Boot重构项目，支持横向扩展，分布式抓取 * 数据持久化采用mongodb * 采用基于Netty的AsyncHttpClient代替HttpClient4.5 #### 2018.07.09 * 知乎网站更新，不再需要authorization验证 * 完善单测 * 修复已知bug #### 2017.11.05 * 知乎authorization文件更新，修改authorization获取方式。 #### 2017.05.26 * 修复代理返回错误数据，导致java.lang.reflect.UndeclaredThrowableException异常。 #### 2017.03.30 * 知乎api变更，关注列表页不能获取到关注人数，导致线程池任务不能持续下去。抓取模式切换成原来ListPageThreadPool和DetailPageThreadPool的方式。 #### 2017.01.17 * 增加代理序列化。 * 调整项目结构，大幅度提高爬取速度。不再使用ListPageThreadPool和DetailPageThreadPool的方式。直接下载关注列表页，可以直接获取到用户详细资料。 #### 2017.01.10 * 不再采用登录抓取，并移除登录抓取相关模块，模拟登录的主要逻辑代码见[ModelLogin.java](https://github.com/wycm/zhihu-crawler/blob/2.0/src/main/java/com/crawl/zhihu/ModelLogin.java)。 * 优化项目结构，加快爬取速度。采用ListPageThreadPool和DetailPageThreadPool两个线程池。ListPageThreadPool负责下载”关注用户“列表页，解析出关注用户，将关注用户的url去重，然后放到DetailPageThreadPool线程池。 DetailPageThreadPool负责下载用户详情页面，解析出用户基本信息并入库，获取该用户的"关注用户"的列表页url并放到ListPageThreadPool。 #### 2016.12.26 * 移除未使用的包，修复ConcurrentModificationException和NoSuchElementException异常问题。 * 增加游客（免登录）模式抓取。 * 增加代理抓取模块。 ## 免责申明 * 本项目仅供个人学习与交流使用，严禁用于商业以及不良用途。 ## 最后 * 有问题的请提issue。 * 欢迎贡献代码。 * 爬虫交流群：633925314，欢迎交流。 * 需要数据的，关注公众号即可(117w知乎用户基本信息资料，该数据仅供个人学习与交流使用，严禁用于商业以及不良用途)：lwndso<br> ![一个程序员日常分享，包括但不限于爬虫、Java后端技术，欢迎关注](https://raw.githubusercontent.com/wycm/md-image/master/2019-02-28/9.png)

评论收藏

内容反馈

版权申诉