
Python 入门网络爬虫之精华版
Python 学习网络爬虫主要分 3 个大的版块:抓取,分析,存储
另外,比较常用的爬虫框架 Scrapy,这里最后也介绍一下。
先列举一下相关参考:宁哥的小站-网络爬虫
抓取
这一步,你要明确要得到的内容是是什么?是 HTML 源码,还是 Json 格式的字符串等
等。
1. 最基本的抓取
一般属于 get 请求情况,直接从服务器上获取数据。
首先,Python 中自带 urllib 及 urllib2 这两个模块,基本上能满足一般的页面抓取。另外,
requests 也是非常有用的包,与此类似的,还有 httplib2 等等。
Requests:
import requests
response = requests.get(url)
content = requests.get(url).content # string
print "response headers:", response.headers # dict
print "content:", content
Urllib2:
import urllib2
response = urllib2.urlopen(url)
content = urllib2.urlopen(url).read() # string
print "response headers:", response.headers # not dict
print "content:", content
Httplib2:
import httplib2
http = httplib2.Http()
response_headers, content = http.request(url, 'GET')
print "response headers:", response_headers # dict
print "content:", content
此外,对于带有查询字段的 url,get 请求一般会将来请求的数据附在 url 之后,以?分割 url
和传输数据,多个参数用&连接。
data = {'data1':'XXXXX', 'data2':'XXXXX'} # dict 类型
Requests:data 为 dict,json
import requests
评论0
最新资源