一.爬虫与反爬斗争—反爬策略
1.通过user-agent客户端标识来判断是不是爬虫
方法:封装请求头:user-agent
2.封ip
方法:设置代理ip
3.通过访问频率判断是否是非人类请求
方法:设置爬取间隔 和爬取策略
4.验证码
方法:识别验证码
5.页面请求不再直接渲染,通过前端js异步获取
方法:a通过selenium+phantomjs来获取数据
b.找到数据来源的接口(ajax接口)
6.能获取列表页,就不获取详情页,为了避免增加请求数量.
a.将详情页放到每条数据中心,第一次爬取先爬取列表
b.第二次从数据库中拿出详情页链接,在做第二次爬取
7.能一次性获取,就不分页获取,