# jerryWebSpider
## 项目简介
jerryWebSpider是一个java爬虫实例集合,基于springboot构建,目前内含对tuwan网妹子图的爬虫。
出现了Python版本哦,请参阅“姊妹项目”!~~
## 更新历史
2018.12.8 初始提交
2018.12.17 增加leshe网爬虫
2019.1.7 原有tuwanSpider、lesheSpider由于接口升级等原因失效,作废。追加tuwanAlbumSpider和lesheAlbumSpider,对公开图片进行爬取
2019.1.23 对tuwanAlbumSpider进行版本更新,利用新的接口漏洞对全站图片进行爬取
2019.2.21 追加的tuwan序号为1286-1391的压缩包已更新到百度云
2019.2.22 追加的tuwan序号为1292-1442的压缩包已更新到百度云
2019.2.27 百度云资源被封禁,新的下载方式请见博客链接
2019.3.24 追加基于[jerryWebSpider](https://github.com/jrhu05/jerryWebSpider)的url获取逻辑而转化的python27版本
2019.6.5 追加1-1400分块打包资源下载地址,下载方式为百度云,新的下载地址请见博客链接
## 项目模块
### 一、tuwanSpider
tuwan接口更新,此爬虫目前已失效,目前已无法直接下载压缩包,但可以逐张下载收费的图片,具体参见tuwanAlbumSpider。
~~提供对tuwan网妹子图、音乐的抓取及下载功能,程序主要逻辑集中在task包下的TuwanSpiderTask类与TuwanImageDownloadTask类,入口为TuwanSpiderController。~~
### 二、tuwanAlbumSpider
该爬虫提供对tuwan网妹子图的抓取及下载功能,程序主要逻辑集中在task包下的TuwanAlbumSpiderTask与TuwanAlbumImageDownloadTask类,入口为TuwanAlbumSpiderController。
![](https://raw.githubusercontent.com/jrhu05/jerryWebSpider/master/pic/tuwan.jpg)
### 三、lesheSpider
leshe程序更新,需要密码,此爬虫目前已失效。
~~提供对leshe网妹子图的抓取及下载功能,程序主要逻辑集中在task包下的LesheSpiderTask类与LesheImageDownloadTask类,入口为LesheSpiderController。~~
### 四、lesheAlbumSpider
提供对leshe网妹子图公开图片的抓取及下载功能,程序主要逻辑集中在task包下的LesheAlbumSpiderTask类与LesheAlbumImageDownloadTask类,入口为lesheAlbumSpiderController。
![](https://raw.githubusercontent.com/jrhu05/jerryWebSpider/master/pic/leshe.jpg)
## 目录结构
![](https://raw.githubusercontent.com/jrhu05/jerryWebSpider/master/pic/structure.jpg)
## 运行说明
### 一、tuwanAlbumSpider运行说明
将代码clone到本地后。
1、使用navicat等工具新建mysql数据库,名称自定;
2、将db目录下的my_spider.sql导入数据库(该sql已经包括截止2019-01-23爬取到的最新数据,内含34669张tuwan图片下载地址);
3、将项目导入idea或其他集成开发工具;
4、修改springboot配置文件application-dev.yml中的数据库配置及图片保存地址tuwan:album:imageStorePath;
5、启动项目;
6、图包地址爬取:访问http://你的IP:8088/tuwanAlbumSpider/startSpider?start=0&end=1500 即可对tuwan网id从0到1500的相册进行爬取;
7、图包批量下载:访问http://你的IP:8088/tuwanAlbumSpider/startDownLoadImage?start=1390&end=13901 可对前一步爬取到的图包进行下载,以本链接为例:下载从1390号图包开始,到1391号图包结束;
ps:系统默认会跳过已经下载过的图片,如果想重新下载需要将数据库中tuwan_album_images表对应记录的downloaded字段置为0
8、项目打包及服务器部署运行请自行搜索
### 二、lesheAlbumSpider运行说明
将代码clone到本地后。
1、使用navicat等工具新建mysql数据库,名称自定;
2、将db目录下的my_spider.sql导入数据库(该sql已经包括截止2018-12-17爬取到的最新数据),如在其他步骤中已经导入过该数据库则无需新建数据和导入数据库;
3、将项目导入idea或其他集成开发工具;
4、修改springboot配置文件application-dev.yml中的数据库配置及图包保存地址leshe:album:imageStorePath;
5、启动项目;
6、图包地址爬取:访问http://你的IP:8088/lesheAlbumSpider/startSpider 即可对全站公开图进行爬取;
7、图包批量下载:访问http://你的IP:8088/lesheAlbumSpider/startDownLoadImage 即可对前一步爬取到的图片进行下载;
8、项目打包及服务器部署运行请自行搜索
## 姊妹项目
1、对tuwanAlbumSpider基于Python的实现
**tuwan_crawle**
作者:[ignnonster](https://github.com/bignnonster)
项目地址:https://github.com/bignnonster/tuwan_crawler
说明:基于[jerryWebSpider](https://github.com/jrhu05/jerryWebSpider)的url获取逻辑而转化的python27版本。适用于没有java、mysql环境的同学。
## 其他
以上案例、代码及说明仅供测试使用,请勿用于商业用途。如需转载请注明出处,如代码运行或测试过程中发现问题或bug请发起issues。
资源打包下载见
http://blog.hytcshare.com/post/tuwan-spider.html
没有合适的资源?快使用搜索试试~ 我知道了~
web爬虫合集.zip
共62个文件
java:50个
jpg:3个
yml:2个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 177 浏览量
2023-11-09
08:08:18
上传
评论
收藏 3.13MB ZIP 举报
温馨提示
web爬虫合集.zip
资源推荐
资源详情
资源评论
收起资源包目录
web爬虫合集.zip (62个子文件)
empty_file.txt 0B
jerryWebSpider-master
pic
leshe.jpg 136KB
structure.jpg 29KB
tuwan.jpg 149KB
pom.xml 4KB
src
test
java
com
hytcshare
jerrywebspider
JerryWebSpiderApplicationTests.java 362B
main
resources
application-dev.yml 2KB
application.yml 36B
java
com
hytcshare
jerrywebspider
constant
TuwanConstant.java 441B
pipeline
LesheAlbumMysqlPipeline.java 2KB
LesheMysqlPipeline.java 2KB
controller
lesheAlbumSpiderController.java 3KB
TuwanSpiderController.java 4KB
BaseController.java 1006B
TuwanAlbumSpiderController.java 4KB
lesheSpiderController.java 3KB
task
TuwanSpiderTask.java 6KB
LesheImageDownloadTask.java 3KB
TuwanAlbumImageDownloadTask.java 4KB
LesheSpiderTask.java 3KB
TuwanImageDownloadTask.java 4KB
LesheAlbumImageDownloadTask.java 3KB
LesheAlbumSpiderTask.java 2KB
TuwanAlbumSpiderTask.java 6KB
utils
DownloadUtils.java 6KB
TaskUtils.java 2KB
HttpUtils.java 4KB
ExceptionUtils.java 391B
dao
LesheAlbumImagesDao.java 438B
TuwanImagesDao.java 324B
TuwanMp3Dao.java 233B
LesheImagesDao.java 368B
SpiderTaskDao.java 286B
ErrorLogDao.java 233B
TuwanAlbumImagesDao.java 568B
service
LesheAlbumImagesService.java 1KB
TuwanAlbumImagesService.java 1KB
ErrorLogService.java 453B
TuwanImagesService.java 827B
LesheImagesService.java 935B
TuwanMp3Service.java 453B
SpiderTaskService.java 585B
enums
ExceptionEnum.java 535B
ServerStatusEnum.java 260B
DownloadedStatusEnum.java 385B
SpiderTaskStatusEnum.java 388B
entity
TuwanMp3.java 443B
TuwanImages.java 652B
ErrorLog.java 499B
SpiderTask.java 471B
TuwanAlbumImages.java 694B
LesheImages.java 616B
LesheAlbumImages.java 630B
exception
SpiderException.java 267B
pageprocessor
LesheAlbumPageProcessor.java 2KB
LeshePageProcessor.java 1KB
JerryWebSpiderApplication.java 348B
res
tuwan1286+资源对照表.xls 2.72MB
tuwan0-1285资源对照表.xls 541KB
.gitignore 294B
README.md 5KB
db
my_spider.sql 9.82MB
共 62 条
- 1
资源评论
xiaoshun007~
- 粉丝: 3833
- 资源: 3145
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功