# pyspider
知乎爬虫和v2ex爬虫的实现。使用python的pyspider爬虫进行开发,主要爬取知乎的问题和评论,以及v2ex的帖子。数据转储到mysql数据库,用于zhihu项目的使用。
## 使用python爬虫爬取知乎和v2ex数据,充实网站信息
安装python2.7并且配置环境变量。同时安装pycharm,配置interpretor,安装pip。
这里会各种报错,主要是中文目录以及pip版本导致的错误,需要修改各种配置文件以支持gbk编码。详情略。
安装好以后,我们先熟悉一下python的语法,写一些例子,比如数据类型,操作符,方法调用,以及面向对象的技术。
因为数据是要导入数据库的,所以这里安装MySQLdb的一个库,并且写一下连接数据库的代码,写一下简单的crud进行测试。
使用requests库作为解析http请求的工具,使用beautifulsoup作为解析html代码的工具,请求之后直接使用css选择器匹配。即可获得内容。
当然现在我们有更方便的工具pyspider,可以方便解析请求并且可以设置代理,伪装身份等,直接传入url并且写好多级的解析函数,程序便会迭代执行,直到把所有页面的内容解析出来。这里我们直接启动pyspider的web应用并且写好python代码,就可以执行爬虫了。简单讲一下知乎和v2ex的爬虫流程。
v2ex:
首先请求首页,因为v2ex现在也是https页面了,所以需要默认把使用证书设为false。
执行完index_page函数,说明首页已经请求完毕,我们了解其css布局和url特征以后,根据tab=?可以进入下一级分类。于是for循环爬出所有以tab=?结尾的url,并且分别请求,进入下一级函数。
根据页面的层级和css格式我们设置好多级函数依次循环执行,这样我们就可以解析到最后一级真正的帖子内容了。
同理,知乎也是这样,先找到问题,再把问题下所有的回答进行爬取,最后把问题和评论一起处理。
当然最后一级内容需要调用数据库的存储接口,为了避免存储错误,需要把内容中的 " 改成 //,否则会出问题。
免责声明:
1.本资源仅供学习和交流使用,不保证其准确性、完整性、及时性或适用性。
2.本资源仅包含一般信息,不构成专业建议。在使用本资源时,请务必自行研究并谨慎决策。
3.我已尽力确保本资源的正确性和合法性,但不对其准确性、完整性和及时性做出保证。
4.本资源不应用于商业用途。
5.在使用本资源的过程中,用户应自行承担所有风险和责任,并遵守相关法律法规。
6.对于因使用本资源而产生的任何损失或损害,我概不负责。
请确保在使用本资源时仔细阅读并遵守以上免责声明。如果您有任何疑问或需要进一步帮助,请联系我。
没有合适的资源?快使用搜索试试~ 我知道了~
基于python+pyspider的知乎爬虫项目源码zip
共25个文件
py:10个
xml:5个
db:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 77 浏览量
2024-02-03
20:52:51
上传
评论
收藏 28KB ZIP 举报
温馨提示
基于python+pyspider的知乎爬虫项目源码zip
资源推荐
资源详情
资源评论
收起资源包目录
知乎爬虫和v2ex爬虫的实现。使用python的pyspider爬虫进行开发,主要爬取知乎的问-pyspider.zip (25个子文件)
pyspider-master
v2ex
__init__.py 0B
v2ex.py 3KB
知乎
__init__.py 0B
zhihu.py 3KB
data
task.db 0B
result.db 0B
scheduler.all 6B
scheduler.1h 6B
scheduler.1d 6B
project.db 12KB
.idea
vcs.xml 180B
misc.xml 185B
inspectionProfiles
profiles_settings.xml 228B
modules.xml 264B
encodings.xml 190B
qiushi.iml 431B
练习
__init__.py 0B
pq.py 1KB
pachong.py 4KB
v2ex.html 84KB
ps1.py 399B
mysqldb.py 801B
c3-11.py 6KB
conf.json 160B
README.md 3KB
共 25 条
- 1
资源评论
武昌库里写JAVA
- 粉丝: 3136
- 资源: 1872
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功