自己写的一个爬取hoop数据的方法,全部运行成功能爬取五十万的数据量,总共开启了二十个线程同时跑,整合了java原生mail包和jsoup以及mybatis,使用的是mysql数据库。遇到能catch的异常的时候会给邮箱发邮件显示出错的url,目前为止唯一会引起所有线程中断的异常是连接时间过长,timeout设置的是10秒,根据自己的网速可以把timeout设置长一点。嗯······目前就这些,发件箱最好使用网易邮箱,亲测可用,收件箱随意。使用网易邮箱的时候注意输入的密码是授权码不是登录的密码,授权码可以在网易邮箱中设置,具体不知道的自己百度很容易找到。就这样,有问题私信我我都会回复,以前只知道下载积分没了,所以就设置了两个积分下载
hoopchina篮球网站50万数据爬取java代码
需积分: 17 124 浏览量
2017-05-11
22:49:23
上传
评论
收藏 1.23MB RAR 举报
右左瓜子
- 粉丝: 1
- 资源: 3
最新资源
- Screenshot_20240427_031602.jpg
- 网页PDF_2024年04月26日 23-46-14_QQ浏览器网页保存_QQ浏览器转格式(6).docx
- 直接插入排序,冒泡排序,直接选择排序.zip
- 在排序2的基础上,再次对快排进行优化,其次增加快排非递归,归并排序,归并排序非递归版.zip
- 实现了7种排序算法.三种复杂度排序.三种nlogn复杂度排序(堆排序,归并排序,快速排序)一种线性复杂度的排序.zip
- 冒泡排序 直接选择排序 直接插入排序 随机快速排序 归并排序 堆排序.zip
- 课设-内部排序算法比较 包括冒泡排序、直接插入排序、简单选择排序、快速排序、希尔排序、归并排序和堆排序.zip
- Python排序算法.zip
- C语言实现直接插入排序、希尔排序、选择排序、冒泡排序、堆排序、快速排序、归并排序、计数排序,并带图详解.zip
- 常用工具集参考用于图像等数据处理
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈