没有合适的资源?快使用搜索试试~ 我知道了~
zhihu:zhihu是一个知乎话题内容的爬虫,可以爬取知乎所有的话题相关的问答内容
共36个文件
pyc:11个
py:11个
png:10个
需积分: 37 21 下载量 92 浏览量
2021-05-02
07:07:47
上传
评论 6
收藏 876KB ZIP 举报
温馨提示
zhihu说明文档 介绍 zhihu是一个知乎话题内容的爬虫,可以爬取知乎所有的话题相关的问答内容,爬虫框架使用scrapy,数据存储使用mongo。由于知乎话题的问答内容信息巨大(亿级数据量),这里只是爬取了话题广场的“阅读”话题下的所有子话题下的精华问题与回答的相关信息。 代码说明 运行环境 Windows 10 专业版 Python 3.5/Scrapy 1.5.0/MongoDB 3.4.7 依赖包 Requests Pymongo Faker(随机切换User-Agent) 其它 知乎话题广场有33个父话题,每个父话题有不同数量的子话题,每个子话题下又有很多的精华问题,每个精华问题下有不同数量的回答,如果想要完全爬取所有的问答,由于数据量太大,耗时太久。这里选择了“阅读”话题进行数据爬取。知乎的子话题、精华问答的内容都是采用动态加载的方法进行更新获取的,在分析了其动态加载链接后,
资源推荐
资源详情
资源评论
收起资源包目录
zhihu-master.zip (36个子文件)
zhihu-master
zhihuspider
zhihuspider
middlewares.py 4KB
pipelines.py 637B
spiders
question.py 4KB
travel.py 6KB
zhihu.py 7KB
anwser.py 6KB
__pycache__
anwser.cpython-35.pyc 4KB
travel.cpython-35.pyc 4KB
topic.cpython-35.pyc 2KB
game.cpython-35.pyc 4KB
__init__.cpython-35.pyc 158B
read.cpython-35.pyc 5KB
question.cpython-35.pyc 3KB
read.py 7KB
__init__.py 161B
topic.py 2KB
__pycache__
pipelines.cpython-35.pyc 960B
__init__.cpython-35.pyc 150B
settings.cpython-35.pyc 549B
items.cpython-35.pyc 739B
items.py 664B
settings.py 3KB
scrapy.cfg 265B
知乎所有话题.xlsx 286KB
pic
lanluyu词云图20180711.png 94KB
bufen.PNG 14KB
anwser.PNG 36KB
mongodb.PNG 81KB
question.PNG 112KB
topic.PNG 14KB
topics.PNG 57KB
流程图.PNG 31KB
知乎父话题和子话题数目.PNG 16KB
question.xlsx 118KB
README.md 3KB
流程图.PNG 31KB
共 36 条
- 1
资源评论
FriedrichZHAO
- 粉丝: 26
- 资源: 4531
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功