
Python 入门网络爬虫之精华版
Author: LiNing
Email: lining0806@gmail.com
Blog: 宁哥的小站
Python 学习网络爬虫主要分 3 个大的版块:抓取,分析,存储
另外,比较常用的爬虫框架 Scrapy,这里最后也详细介绍一下。
首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁
哥的小站-网络爬虫
当我们在浏览器中输入一个 url 后回车,后台会发生什么?比如说你输入
http://www.lining0806.com/,你就会看到宁哥的小站首页。
简单来说这段过程发生了以下四个步骤:
查找域名对应的 IP 地址。
向 IP 对应的服务器发送请求。
服务器响应请求,发回网页内容。
浏览器解析网页内容。
网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定 url,直接返回给用户所需
要的数据,而不需要一步步人工去操纵浏览器获取。
抓取
这一步,你要明确要得到的内容是是什么?是 HTML 源码,还是 Json 格式的字符串等。
1. 最基本的抓取
抓取大多数情况属于 get 请求,即直接从对方服务器上获取数据。
首先,Python 中自带 urllib 及 urllib2 这两个模块,基本上能满足一般的页面抓取。另外,
requests 也是非常有用的包,与此类似的,还有 httplib2 等等。
Requests:
import requests
response = requests.get(url)
content = requests.get(url).content
print "response headers:", response.headers
print "content:", content