百度音乐爬虫
=================
通过:
$ python dog.py
启动爬虫,没有设置时间间隔,所以会被百度k掉[经测试即使设置时间间隔为10秒也会被百度k掉],
大概30分钟会被k一次,一次k大概20分钟,所以dog.py实现了在被k的时候[百度会302到输入验证码],会
自动停止抓取,10分钟后自动尝试启动爬虫,如果还是302那么再继续停止10分钟,一般过
一会解禁了就可以抓取了。
使用redis支持断点续传。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
while 1: time.sleep(0.1) # 得到日志中302的个数 cnt_302 = int(commands.getstatusoutput('cat bdmms.log | grep -n "Redirecting (302)" | wc -l')[1]) # 读取上次302的个数 last_cnt = int(open('./302count.txt').read().strip()) if cnt_302 != last_cnt: # 将新302个数写到文件 open('./302count.txt', 'w').write(str(cnt_302)) # 杀死爬虫 print 'killing...' os.system('killall scrapy') # 暂停 N = 10 print 'sleeping %s minute...' % N time.sleep
资源推荐
资源详情
资源评论
收起资源包目录
0baidu-music-spider-master.zip (15个子文件)
baidu-music-spider-master
操作说明.zip 28KB
dog.py 934B
bdmms
__init__.py 60B
pipelines.py 2KB
models.py 2KB
spiders
__init__.py 161B
bdmmspider.py 6KB
items.py 720B
rotate_useragent.py 3KB
settings.py 1KB
scrapy.cfg 242B
302count.txt 2B
clear_stats.py 326B
.gitignore 331B
README.md 513B
共 15 条
- 1
资源评论
小菜翔
- 粉丝: 222
- 资源: 161
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功