常见的反爬机制及处理方式
1、Headers反爬虫 :Cookie、Referer、User-Agent
解决方案: 通过F12获取headers,传给requests.get()方法
2、IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问
解决方案:
1、构造自己IP代理池,每次访问随机选择代理,经常更新代理池
2、购买开放代理或私密代理IP
3、降低爬取的速度
3、User-Agent限制 :类似于IP限制
解决方案: 构造自己的User-Agent池,每次访问随机选择
5、对查询参数或Form表单数据认证(salt、sign)
解决方案: 找到JS文件,分析JS处理方法
- 1
- 2
前往页