# pyspider
知乎爬虫和v2ex爬虫的实现。使用python的pyspider爬虫进行开发,主要爬取知乎的问题和评论,以及v2ex的帖子。数据转储到mysql数据库,用于zhihu项目的使用。
## 使用python爬虫爬取知乎和v2ex数据,充实网站信息
安装python2.7并且配置环境变量。同时安装pycharm,配置interpretor,安装pip。
这里会各种报错,主要是中文目录以及pip版本导致的错误,需要修改各种配置文件以支持gbk编码。详情略。
安装好以后,我们先熟悉一下python的语法,写一些例子,比如数据类型,操作符,方法调用,以及面向对象的技术。
因为数据是要导入数据库的,所以这里安装MySQLdb的一个库,并且写一下连接数据库的代码,写一下简单的crud进行测试。
使用requests库作为解析http请求的工具,使用beautifulsoup作为解析html代码的工具,请求之后直接使用css选择器匹配。即可获得内容。
当然现在我们有更方便的工具pyspider,可以方便解析请求并且可以设置代理,伪装身份等,直接传入url并且写好多级的解析函数,程序便会迭代执行,直到把所有页面的内容解析出来。这里我们直接启动pyspider的web应用并且写好python代码,就可以执行爬虫了。简单讲一下知乎和v2ex的爬虫流程。
v2ex:
首先请求首页,因为v2ex现在也是https页面了,所以需要默认把使用证书设为false。
执行完index_page函数,说明首页已经请求完毕,我们了解其css布局和url特征以后,根据tab=?可以进入下一级分类。于是for循环爬出所有以tab=?结尾的url,并且分别请求,进入下一级函数。
根据页面的层级和css格式我们设置好多级函数依次循环执行,这样我们就可以解析到最后一级真正的帖子内容了。
同理,知乎也是这样,先找到问题,再把问题下所有的回答进行爬取,最后把问题和评论一起处理。
当然最后一级内容需要调用数据库的存储接口,为了避免存储错误,需要把内容中的 " 改成 //,否则会出问题。
没有合适的资源?快使用搜索试试~ 我知道了~
使用python的pyspider爬虫进行开发
共25个文件
py:10个
xml:5个
db:3个
需积分: 0 1 下载量 44 浏览量
2024-01-17
20:56:03
上传
评论
收藏 27KB ZIP 举报
温馨提示
python项目
资源推荐
资源详情
资源评论
收起资源包目录
知乎爬虫和v2ex爬虫的实现。使用python的pyspider爬虫进行开发,主要爬取知乎的问题和评论,以及v2ex的帖子。数据转储到mysql数据库,用于zhihu项目的使用。.zip (25个子文件)
557sdsada232323sd
v2ex
__init__.py 0B
v2ex.py 3KB
知乎
__init__.py 0B
zhihu.py 3KB
data
task.db 0B
result.db 0B
scheduler.all 6B
scheduler.1h 6B
scheduler.1d 6B
project.db 12KB
.idea
vcs.xml 180B
misc.xml 185B
inspectionProfiles
profiles_settings.xml 228B
modules.xml 264B
encodings.xml 190B
qiushi.iml 431B
练习
__init__.py 0B
pq.py 1KB
pachong.py 4KB
v2ex.html 84KB
ps1.py 399B
mysqldb.py 801B
c3-11.py 6KB
conf.json 160B
README.md 2KB
共 25 条
- 1
资源评论
zero2100
- 粉丝: 160
- 资源: 2417
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功