没有合适的资源?快使用搜索试试~ 我知道了~
zhihuspider:分布式知乎爬虫,python3,使用celery进行分布式任务分发
共49个文件
py:25个
pyc:16个
json:2个
需积分: 23 3 下载量 146 浏览量
2021-04-29
00:26:31
上传
评论
收藏 249KB ZIP 举报
温馨提示
zhihuspider 分布式知乎爬虫,python3,使用celery进行分布式任务分发 使用sqlalchemy做orm框架, db模块为model、以及相关的存储、创建。 使用redis作为cookies的存储,利用过期时间。 使用redis作为celery的broker,backend。 使用redis作为url任务队列。 2017-11-06完成知乎搜索页面的解析, 问题页面答案分为两步进行的前端渲染,为了尽可能模仿人的行为,前三条数据,从返回的js中截取数据,再模拟ajax获取以后的评论。 2017-11-10完成答案的评论, table 定义为reply, 深度抓取对用户答案的评论. init_sql_table.py 创建db下定义的表格。 crawl_answer.py 抓取ZhihuData下 comment_crawled为0的问题答案 crawl_reply.py
资源推荐
资源详情
资源评论
收起资源包目录
zhihuspider-master.zip (49个子文件)
zhihuspider-master
http_get_response
basic.py 2KB
header.py 3KB
__pycache__
basic.cpython-34.pyc 2KB
header.cpython-34.pyc 3KB
deploment
requirements.txt 131B
env.sh 623B
decorators
decorator.py 3KB
__pycache__
decorator.cpython-34.pyc 3KB
db
zhihu_data.py 1KB
basic_db.py 736B
user.py 436B
login_info.py 659B
zhihu_comment.py 801B
models.py 395B
zhihu_reply.py 539B
__pycache__
models.cpython-34.pyc 1KB
zhihu_data.cpython-34.pyc 2KB
basic_db.cpython-34.pyc 893B
login_info.cpython-34.pyc 962B
redis_db.cpython-34.pyc 6KB
tables.cpython-34.pyc 2KB
redis_db.py 7KB
search_words.py 485B
tables.py 3KB
utils
__pycache__
email_warning.cpython-34.pyc 2KB
util_cls.cpython-34.pyc 2KB
util_cls.py 1018B
email_warning.py 1KB
README.md 965B
__pycache__
conf.cpython-34.pyc 3KB
crawl_reply.py 212B
config
spider.yaml 3KB
conf.py 2KB
__pycache__
conf.cpython-34.pyc 3KB
crawl_answer.py 106B
logger
log.py 2KB
__pycache__
log.cpython-34.pyc 1KB
ltt.json 623KB
parse
parse_coment.py 11KB
login.py 3KB
parse_answers_comment.py 2KB
zhihu.json 20KB
__pycache__
parse_content.cpython-34.pyc 1KB
login.cpython-34.pyc 3KB
parse_content.py 1KB
tasks
answer_comment.py 703B
logs
zhihu.log 2KB
captcha.jpg 4KB
init_sql_table.py 270B
共 49 条
- 1
资源评论
DeepIndaba
- 粉丝: 26
- 资源: 4658
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功