# code_space_spider_demo
爬虫核心三个模块:URL管理器,网页下载器,网页解析器。三者形成一个循环,只要有URL可下载,就一直运行下去,直到爬遍整个待爬网站。
- URL管理器:对将要爬取的URL和已经爬取的URL进行管理。
- 网页下载器:接受URL管理器发送过来的待爬取的URL,然后把该URL对应的网页下载并存储下来。
- 网页解析器:网页下载器下载下来的网页交给网页解析器进行解析,一方面解析出有价值的数据,另一方面解析出网页上所有的URL,补充进URL管理器。
### 项目结构
```python
code_space_spider_demo
├─html_downloader.py 网页下载器
├─html_outputer.py 数据处理器
├─html_parser.py 网页解析器
├─output.html 数据展示html
├─spider_main.py 爬虫启动器
├─urls_manager.py URL管理器
```
爬虫调度端:启动,停止爬虫,监视爬虫的运行情况。
保姆级教程手把手教你实现网络爬虫
需积分: 1 163 浏览量
2023-12-15
16:15:09
上传
评论
收藏 9KB ZIP 举报
code_space
- 粉丝: 324
- 资源: 15
最新资源
- 筷手引流工具.apk
- 论文(最终)_20240430235101.pdf
- 基于python编写的Keras深度学习框架开发,利用卷积神经网络CNN,快速识别图片并进行分类
- 最全空间计量实证方法(空间杜宾模型和检验以及结果解释文档).txt
- 5uonly.apk
- 蓝桥杯Python组的历年真题
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 2023-04-06-项目笔记 - 第一百十九阶段 - 4.4.2.117全局变量的作用域-117 -2024.04.30
- 前端开发技术实验报告:内含4四实验&实验报告
- Highlight Plus v20.0.1
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈