总结python爬虫抓站的实用技巧资源-CSDN文库

python多线程

89 浏览量 2020-12-24 09:33:34 上传评论收藏 191KB PDF 举报

资源推荐

资源详情

资源评论

总结总结python爬虫抓站的实用技巧爬虫抓站的实用技巧

前言前言

写过的这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，累积不少爬虫抓站的经验，在此总结一下，

那么以后做东西也就不用重复劳动了。

1.最基本的抓站最基本的抓站

import urllib2

content = urllib2.urlopen('http://XXXX').read()

2.使用代理服务器使用代理服务器

这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。

import urllib2

proxy_support = urllib2.ProxyHandler({'http':'http://XX.XX.XX.XX:XXXX'})

opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)

urllib2.install_opener(opener)

content = urllib2.urlopen('http://XXXX').read()

3.需要登录的情况需要登录的情况

登录的情况比较麻烦我把问题拆分一下：

3.1 cookie的处理的处理

import urllib2, cookielib

cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())

opener = urllib2.build_opener(cookie_support, urllib2.HTTPHandler)

urllib2.install_opener(opener)

content = urllib2.urlopen('http://XXXX').read()

是的没错，如果想同时用代理和cookie，那就加入proxy_support然后operner改为

opener = urllib2.build_opener(proxy_support, cookie_support, urllib2.HTTPHandler)

3.2 表单的处理表单的处理

登录必要填表，表单怎么填？首先利用工具截取所要填表的内容。

比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包

这个我就举个例子好了，以verycd为例，先找到自己发的POST请求，以及POST表单项：

可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项，其中fk是随机生成的（其实不太随

机，看上去像是把epoch时间经过简单的编码生成的），需要从网页获取，也就是说得先访问一次网页，用正则表达式等工具

截取返回数据中的fk项。continueURI顾名思义可以随便写，顾名思义可以随便写，login_submit是固定的是固定的，这从源码可以看出。还有

username，password那就很显然了。

好的，有了要填写的数据，我们就要生成postdata

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余5页未读，立即下载

内容反馈

weixin_38717579

粉丝: 2
资源: 887

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip