# 基于scrapy的多阶段式通用爬虫框架
## 前提环境
[python](https://www.python.org/)
[make (windows)](https://gnuwin32.sourceforge.net/packages/make.htm)
[Chrome](https://www.google.com/chrome/)
## 使用
> [!note]
>
> 环境配置: [环境配置](./doc/环境配置.md)
>
> 配置模板参考: [配置模板](./universal_spider/template/config_template.py)
>
> 配置字段文档: [配置详解](./doc/配置详解.md)
>
> 测试配置: [测试配置](./doc/test_config.md)
>
# 待办
- [X] 添加测试配置
- [X] 添加 Makefile
- [X] 添加git提交预检查
- [X] 自动继承上个请求的cookie(假设存在)
- [ ] 中间件添加
- [X] 请求头
- [X] 代理
- [X] 请求间隔
- [X] 重定向
- [ ] 统计响应状态
- [ ] 其他
- [ ] 添加管道
- [X] mysql
- [X] mongodb
- [ ] local csv/json/xlsx
- [ ] 其他
- [ ] 添加解析字段的额外处理逻辑
- [ ] 解析前
- [X] 解析后
- [X] 添加浏览器的抓取方式 (中间件形式)
- [X] 添加通过点击生成配置的前端展示 **[生成配置](https://github.com/ling-yuan/generate-config-with-web)**
- [ ] 其他
- [ ] 添加接口方式提交配置进行抓取
- [ ] 封装成容器
- [ ] 根据通用配置生成requests爬虫
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
【资源说明】 基于Scrapy的通用爬虫框架文档详细+资料齐全.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!
资源推荐
资源详情
资源评论
收起资源包目录
基于Scrapy的通用爬虫框架文档详细+资料齐全.zip (54个子文件)
CSDN
软件
项目授权码.txt 268B
base_spider-main
doc
test_config.md 10KB
项目结构解读.md 0B
配置详解.md 4KB
环境配置.md 340B
pytest.ini 59B
Makefile 1KB
main.py 2KB
LICENSE 1KB
scrapy.cfg 275B
.pre-commit-config.yaml 813B
requirements.txt 86B
test
tools
test_process_function.py 9KB
test_replacer.py 6KB
test_request.py 6KB
test_parse.py 6KB
test_parse_function.py 5KB
sys_path.py 478B
.gitignore 244B
universal_spider
__init__.py 0B
tools
__init__.py 832B
parse_funtion.py 2KB
request.py 2KB
replacer.py 9KB
process_function.py 7KB
others.py 0B
logger.py 1021B
parse.py 2KB
wapper.py 2KB
Info
__init__.py 176B
drissionpage.py 595B
mysql.py 326B
proxy.py 101B
mongo.py 465B
pipelines
__init__.py 193B
pipelines.py 369B
mongo_pipeline.py 2KB
mysql_pipeline.py 2KB
template
config_template.py 2KB
items
__init__.py 85B
items.py 271B
base_item.py 213B
spiders
__init__.py 161B
base_spider.py 12KB
middlewares
__init__.py 671B
random_delay_middleware.py 1010B
redirect_middlewares.py 5KB
drissionpage_middleware.py 3KB
proxy_middleware.py 1KB
user_agent_middleware.py 485B
middlewares.py 4KB
settings.py 3KB
commands
test_commands.py 175B
Readme.md 1KB
共 54 条
- 1
资源评论
Yuki-^_^
- 粉丝: 3099
- 资源: 700
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功