没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论

















Python 爬虫实战入门教程 州的先生 zmister.com
1
《Python 爬虫实战入门教程》
作者:州的先生
微信公众号:州的先生
博客:
http://zmister.com
2018/3/24

Python 爬虫实战入门教程 州的先生 zmister.com
2
目录
目录 ................................................................................................................................................................... 2
第一章:工具准备 ............................................................................................................................................ 3
1.1、基础知识 ................................................................................................................................... 3
1.2、开发环境、 ............................................................................................................................... 3
1.3、第三方依赖库 ........................................................................................................................... 3
1.4、第三方库安装: ....................................................................................................................... 3
第二章:从一个简单的 HTTP 请求开始 ......................................................................................................... 7
2.1、为什么从 HTTP 请求开始 ........................................................................................................ 7
2.2、基本的 HTTP 概念 .................................................................................................................... 9
2.3、用 Python 进行 HTTP 请求 ..................................................................................................... 10
第三章:简单的 HTML 解析——爬取腾讯新闻 ........................................................................................... 12
3.1、爬取腾讯新闻 ......................................................................................................................... 12
第四章:使用 Cookie 模拟登录——获取电子书下载链接 .......................................................................... 17
4.1、使用 Cookie 爬取看看都电子书下载链接 ............................................................................ 18
第五章:获取 JS 动态内容—爬取今日头条 ................................................................................................. 24
5.1、如何处理 JS 生成的网页内容 ................................................................................................ 24
5.2、爬取今日头条 ......................................................................................................................... 25
第六章:提高爬虫效率—并发爬取智联招聘 .............................................................................................. 31
6.1、分析 URL 和页面结构 ............................................................................................................ 31
第七章:使用 Selenium--以抓取 QQ 空间好友说说为例 ............................................................................ 36
7.1、Selenium 简介 ......................................................................................................................... 36
7.2、在 Python 中使用 Selenium 获取 QQ 空间好友说说 ........................................................... 36
7.3、代码简析 ................................................................................................................................. 39
第八章:数据储存——MongoDB 与 MySQL ................................................................................................. 42
8.1、MySQL ..................................................................................................................................... 42
8.2、MongoDB ................................................................................................................................ 47
第九章:下一步.............................................................................................................................................. 50

Python 爬虫实战入门教程 州的先生 zmister.com
3
第一章:工具准备
1.1、基础知识
使用 Python 编写爬虫,当然至少得了解 Python 基本的语法,了解以下几点即可:
基本数据结构
数据类型
控制流
函数的使用
模块的使用
不需要过多过深的 Python 知识,仅此而已。个人推荐《Python 简明教程》:
http://www.kuqin.com/abyteofpython_cn/、Python 官方的《Python 教程》
http://python.usyiyi.cn/translate/python_352/tutorial/index.html
如果需要 PDF 版 Python 入门资料,可以关注我的微信公众号:
州的先生
,回复关键字:
python 入门资料
1.2、开发环境、
•
操作系统
:Windows 7
•
Python 版本
:Python 3.4
•
代码编辑运行环境
:个人推荐 PyCharm 社区版,当然,Python 自带的 IDLE 也行,
Notepad++亦可,只要自己使用得习惯。
1.3、第三方依赖库
•
Requests:
一个方便、简洁、高效且人性化的 HTTP 请求库
•
BeautifulSoup:
HTML 解析库
•
Pymongo:
MongoDB 的 Python 封装模块
•
Selenium:
一个 Web 自动化测试框架,用于模拟登录和获取 JS 动态数据
•
Pytesseract:
一个 OCR 识别模块,用于验证码识别
•
Pillow:
Python 图像处理模块
1.4、第三方库安装:
上面列出的第三方模块大多可以通过 pip install ××的方式直接安装,部分模块安装方式
不一样,下面一一演示:

Python 爬虫实战入门教程 州的先生 zmister.com
4
1.4.1
、
requests
pip install requests
1.4.2
、
BeautifulSoup
pip install bs4
1.4.3
、
Pymongo
pip install pymongo
1.4.4
、
Selenium
剩余50页未读,继续阅读
资源评论

- 御风木木2020-03-19效果一般,当做参考吧
- hx_12462512762019-08-15本书不错,谢谢楼主分享,学习一下

天若尘
- 粉丝: 0
- 资源: 5
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


会员权益专享
安全验证
文档复制为VIP权益,开通VIP直接复制
